00:05
各位线上的朋友们大家好,欢迎参加腾讯云企业创新在线学堂系列课程,我是本次会议的主持人Lisa。腾讯云企业创新在线学堂是围绕企业业务需求,聚焦在数据管理、AI安全、办公协同等8大数字化需求场景推出的系列课程,携手腾讯云,创新驱动无限可能,共同开启企业成长新篇章。大模型时代啊,AIGC工具正在迅速的改变着企业的生产方式,那为了帮助企业更好的把握AIGC带来的变革机遇,基于腾讯混圆大模型技术,腾讯云推出了系列的AIGC产品方案,助力企业和开发者快速实现AIGC应用落地。本期课程呢将分享腾讯云在文本创作、图像创作、视频创作领域的应用探索和落地实践,深入的探讨如何通过AIGC帮助企业提升工作效率,推动业务创新,实现业务增长和市场竞争力的提升,为企业创新发展注入新动能。
01:11
在嘉宾的分享过程中啊,如果您有任何的疑问,也欢迎您在问答区进行提问,我们的讲师会在最后的QA环节为您解答,同时您也可以通过聊天窗口发表您的意见和建议,期待您的反馈。好了,那首先呢,就有请今天的第一位分享嘉宾,来自腾讯云的产品专家王晓婷。王老师专注于AI赛道7年的时间,从基于bet的AI产品构建到全面拥抱语言模型的浪潮,拥有着丰富的智能化应用经验。今天王老师的分享主题是文本革命,腾讯滚圆大模型文本生成的应用与实践分享,有请。大家好,那第一部分的话呢,先由我来为大家分享这个腾讯会员大模型文本生成部分的相关的应用跟一些介绍啊。
02:03
嗯,整个的分享的话呢,会分两个部分,第一个部分的话,会简单介绍一下会员大模型的现状,然后以及呢,第二个部分是呃,这个大模型文本生成的一些高价值的应用场景。嗯,首先的话呢,是简单介绍一下,就是腾讯会员大模型的一个体系,那呃我们知道说大模型的话呢,它一般是有这个呃稠密模型跟稀疏模型这样的一些区分的,那么目前的话呢,混圆大模型的体系的话呢,是从这个呃稠密模型像稀疏模型的架构再去演进的,那在呃就是这种稠密模型矩阵方面的话呢,呃是提供不同的这种选项,然后去支撑很多的这样的一些呃。比较专项的一些场景,然后能够提供一些比较性价比的推理方案,那么逐渐往稀疏的方向去走的话呢,更能够更好的去突破这种性能的一些限制啊,然后能够兼顾这个模型效果跟资源的使用效率,那么在这个最底层的这个呃,这整整个大模型的这个呃,能启动全链的话呢,我们不管是从在这个数据模型还是一些策略上面,然后采用的是全自研的这种研究,然后那么往上层走的话呢,整个这个我们的模型覆盖了多多个这样的一些领域,包括说一些数学编程,网络安全,或者是一些其他的一些比较垂类的领域,那么在呃,我们对外输出的这样的一些模型层面呢,呃,会输出多多种多样的这样的一些版本,其中的话呢,就是我们采用主要采用的是这种混合专家型的模型,就是MO1的这种结构,而且使用这样在这样的结构基础之上的话。
03:51
它呢,整个模型的参数已经扩展到了这个万亿的级别,所以的话呢,就是在参数量级上达到了一个很大的一个规模,同时的话呢,这样的一个结构的话也可以去,呃。
04:06
去整体降低这个推理成本,并且提升性能,而且在文本方面的话,就是尤其是在这种文本的生成,呃,逻辑推理多轮对话上有着比较不错的表现,嗯。那在最近最新的就是今年呃上半年的这个第三方评测里面,大然报告大家也其实也可以就是在呃公开的外网能够看到呃,那腾讯混员的话呢,就是不光是在专业应用能力,而且在通用机的基础能力,这两个方面的话呢,目前已经都达到了第一梯队这样的一个呃水平,具体的话呢,大家感兴趣可以就是呃具体去试用啊啊那在整个链方面方面的话呢,我们是基于这个腾讯自研的基础设施啊,那嗯包括一些高比较呃高倍速的算力平台,然后基于这样的一些基础设施去做搭建呃自研机器学习的框架,然后那么嗯,当我们采用了一些就是安卓PTM,安卓HCF这样的一些框架,然后能够让我们的训练啊推理的速度,然后能够呃,就是达到一些倍速的成长啊,这样的话比较好的支撑我们就是呃。
05:19
能够短期内短平快的去做一些迭代,能够明显的感知到就是我们的模型,然后是在不断的进化的啊,那当然就是在这个此基础之上的话呢啊啊,我们使用训练以及就是一些啊。呃,特别的金条的方法,然后去呃,创新性的去做一些大模型的训练,然后让他在各种的场景里面,然后垂直应用的效果达到更佳。嗯,除了基础能力的话呢,啊,对于大模型来讲,比较关键的一个点就是它的这个安全,安全性跟可靠性啊,那呃,我们是在围绕大模型的这种呃业务使用模型的这样一个业阶段,然后根据不同的阶段可能会出现的风险,然后去制定一系列的安全措施,去保障整个业务,对于大模型使用的一个呃,不管是数据还是就是应用层面的一些安全,那当然在底层的这样的一些基础设施方面的话呢,我们使用了一些这样的一些啊密码学啊,敏感数据识别啊,攻防对抗这样的一些核心技术,那比如说在这种模型训练啊,推理部署的阶段,就是那可能会呃加入一些业务的数据可能有泄露风险的这样一个阶段的话呢,那我们采用了一些,比如说像呃安全的隔离专区,包括说数据的这种呃隔离存储监控等等,然后去保证。
06:46
像这个阶段的一些这个数据安全,那么在业务使用阶段的话呢,从模型的输入到输出,分别会有就是呃prompt,以及就是输出内容的一些安全的过滤的策略,能够保障说我们的这个呃内容的输输出都是安全合规的,然后另外的话呢,就是在这个稳定性上,然后也会去通过一些啊攻击防护啊,或者是安全防护去提升整个业务的可用性,跟这个应用防攻击的风险。
07:16
去降低这个防攻击的攻击风险。那接下来的话呢,就是重点去聊一下,就是文本生成这里的一些啊,我们已经就是呃,已经或者说是能够应用的一些高价值的一些应用场景。那呃滚圆大模型的话呢,它的一个特点就是有几个,就是在我们在建设的时候呢,就是首先它是呃万亿的这样的一个参数规模,然后另外的话呢,就是呃就是在这个上下文的长度方面的话,然后我们也在不断的扩展,但是现在的话,呃线上基本上是这个32K的上下文,我们马上就是要发布这个呃256K的那支持更就是比比较,就是超长的这种上下文的窗口,然后能够做一个很好的扩展,然后另外的话呢,我们的这样的一些预训练的这些数据,其实规模是相当庞大的,嗯,相当于就是全国公共图书馆总常数常数量1/2的这样一个预训练的语料,那么这么大的一些参数数据,包括说是一些限制的话,然后那其实给大模型带来了很多的一些呃,可靠的一些特点啊,比如说我们具备呃,比较强大的这样的一些中文的创作能力,然后。
08:35
然后以及说嗯,在这种呃对话过程当中,复杂的这种语境里面,然后能够去执行一些复杂的多轮的对话,以及复杂的逻辑推理,那么同时的话呢,不光是说啊,我是文本输入文本输出啊,还有一些就是多模态的这样的理解给生成能力。那首先第一个的这个呃,应用的场景的话呢,就是呃智能的内容创作,那呃。
09:06
使用大模型的话呢,它可以去呃,满足多种的这种文本生成的具体的需求,那比如说在这种营销的场景的话啊,我们可以去啊,使用模型去呃,按照我们期望的风格啊,然后去介绍,去生成一段商品介绍的文案,然后或者说是在这种新媒体上啊,就是想去推广一个一个商品的话,那也可以去按照我们期望的这个风格跟要求去生成一些种草的文案,那包括在这个社社区的运营当中,然后也可以去针对我们要去宣传推广的活动,或者是一些特呃特征,然后去做一些社社群的营销的这样的一些文案生成啊,以及说我们再去策划一些短视频的时候,可以使用大模型的能力去创作这里边的一些脚本。啊嗯,然后这是这个是啊,企业级的这种营销场景,那么我们在个人的话呢,日常休闲的话,然后也可以就是比如说像朋友圈的文案的生成啊,或者是润色优化,那以及说我们想去到这样的一些呃地方去做一些简单的旅游,或者出一些旅游的旅行的攻略啊,那嗯,甚至于说去查询一些美食菜谱,或者说让大模型去制定一些计划啊,那都是可以使用这样的一个文本。
10:29
创作的就是能力,然后去完成的啊,再一个就是内容创作的方向呢,就是文章生成这一块啊,那他可以去就是生成新闻稿件啊,或者说是我们去,呃告诉模型说你应该去,你我们期望就是创作一个怎样的一个小说,它的脉络走向是怎么样的,然后让模型去写小说,或者说是生根据场景去生成一些诗词古文,甚至于说就是呃找一些我去写论文的,可以请这个模型去啊,帮我们去找一些论文的灵感,甚至于说我们已经制定好了章节,以及说每个章节里边可能希望就是呃输出怎么样的内容,怎样的论点论据,那都可以去使用模型去做这样的一些呃创作,然后能够给到就是人更多的这样的一些帮助。
11:23
第二个应用的方向的话呢,就是智能助手的方向,那像智能助手的话呢,一般来讲就是会有两类,一类就是智能客服,当然智能客服的这个场景的话,呃,它因为是要去对接这个企业级的知识库,所以这里边的话呢,一般来讲,如果是在模型之上直接去构建的话,它会还会有一些额外的开发量,但是呢,基于大模型的话呢,呃,它是可以去做到说呃我能够参考企业知识呃的内容,然后去呃回答客户的各种各样的问题,包括说是一些售前售后或者是使用方法的一些,呃那个呃一些说明都是可以,就是把这种数据然后喂给模型,然后让模型去根据这个数据灵活去作答的,然后也省去了就是很多我们在传统里边,呃,就是维护大量的这种。
12:16
问题啊,相似问的这样的一些经历啊,那第二个的话呢,就是。个性化的推荐,那我们可以企业内结合这种,呃,就是用企业自己用户的一些这种特征行为,以及说他希望推荐的一些内容的一些关系,然后那使用这个模型去自主去做一些个性化的服务推荐,再一个的话呢,就是呃针对呃就来访的这样的一些用户去做一些啊,根据他的对话去做一些实时的意图啊,情感的判断,以便说我更好的去监控到这个客户的一些啊,就是想要实现的目的,以及说他的一些情感的诉求,然后能够提升整个客服的这个呃用户满意度啊,然后这个是智能客服的这样的一个应用,然后另外一方面呢,就是工作助手方面。
13:11
这个的话呢,就是呃,我们日常生活当中把它当做一个工具去使用,比如说像文档的处理,那我们可以就是呃使用这个会员的大模型去对各类的文档去做一些编排,翻译或者是一些排版的工作啊,那呃同时的话呢,就是也可以就是针对传段的文档,然后去撰写他的报告,或者是抽取一些标签啊摘要,然后整个提升就是我们人去阅读它,就是的一些这种工作,工作效率,然后第二块关于助手方面的一个应用的话呢,就是会议纪要。然后那么我们可以使用大模型去啊,就是。呃,理解整个这个会议过程当中的所有的内容,然后针对部分的片段,或者是整体的这个会议的过程,去生成会议的摘要记录,或者是to录像啊,甚至于说在里边的一些未来的议程啊,那都可以去提升这里边,然后我们人工去记录跟记忆的一个工作效率。
14:15
第三块呢,就是呃方案的策划,那呃包括说呃大模型可以去根据我们期望去做的这个策划的一个目标,然后以及可用的手段,那告诉模型啊,那模型就可以就是啊可以扩展就是一些点子,或者是帮助人去想到更多的方面,然后提供一些基础的指引啊,然后最后的一块的话呢,就是在数据分析方面,我们可以去把一些就是数据或者是未经加工过的一些表格,然后信息提供给到大模型,那么直接去生成一些这种调研的结果啊,啊统计的数据,或者是一些智能的分析报告啊,去提高这里边数据分析跟决策的一个效率。
15:01
那么另外一大的这个应用的方向的话呢,就是角色扮演啊,那呃,基于混原大模型去可以做一些这种人设的设定,然后啊,因为整个模型的话呢,它是有这个拟人化的对话能力,还有就是比较好的中文的这种预警理解能力,还有复杂的任务执行能力的,那在赋能的这样的一些角色设定之后的话呢,就可以在很多的场景去按照这个呃需要的这样的就是期望扮演的这个角色,然后去呃去做对话,那它的应用方向可能会有这个智能数字人,那么我们呃,根据这种在这个有IP形象的这样的一个数值人的背后去用大模型去驱动,然后呢,能够更加的就是。呃,就是把这个对话,然后能够贴合形象,但这里面也少了很多人工去,就是写脚本的一个工作啊,那第二块儿一个场景的话,就是游戏NPC。
16:01
嗯,那以往的话呢,可能就是人工也是写脚本,总有穷尽的时候,可能看起来就是这个人就讲的就嗯可能多事几本就会比较死板,那么在这个呃使用这个角色扮演的情况下的话呢,就可以去提升,就可以把它的这个出画的多样性,然后去做一个扩展,那呃会给人的这种自然,就是对话的自然度的或者是多样性的感知就会好很多。然后再一个的话呢,就是情感陪伴,比如说像是一些虚拟的呃好友啊呃虚拟的女友呃像这样的话,一般在社交软件上应用的也会比较多。然后再一个的话呢,就是专业服务,那包括说呃模拟面试官啊,或者是模拟呃这种培训官,然后可能会在一些这种培训的场景,然后或者说是呃,能够在一些细分的专业场景与用户去做一些深度交流,最后的一块的话呢,可能就是在这种文化的领域,或者是文旅的领域,比较常用的就是角色复刻,那扮演某一个知名的人物IP,然后去与用户去决策,去交互,那么这样的话,比较能够去更好的去传播这样的一些文化。
17:16
更多的场景的话呢,其实我们前面讲的更多的是呃,就是基于这个它可应用的场景,那么我们也可以就是从这种呃行业细分,然后去看说我们怎么去使用大模型,比如说像在呃法律的这样的一个细分的行业当中的话,我们可以利用大模型的这个啊,就是呃问答的能力啊,然后他的基本的知识的能力,然后去。形成这样的一些法律顾问啊,那去回答一些法律问题,包括说利用他的这种啊文本生成的能力去书写法律文书,以及说是利用它分析推理的能力去做一些案件的这种分析,那么像金融方向的话呢啊,同样的就是可以利用它分析的能力去做这种呃数据的搜集,然后基本面的分析,估值分析这样的一些智能投研的一些呃策略啊,然后那么也可以去呃做一些这种咨询报告的生成啊。
18:13
那呃,比如说像在医疗的这样的一些细分的话,同样的,然后可以利用他的这样的一些问答的能力去,呃去对用户的生健康生活跟作息去做一些这种呃健康的提示跟指引,以及说一些惠普呃信息的一些呃惠普医疗信息的一些这种呃知识普及啊,啊信息查询,甚至于说就是呃可以去简单的做一些这种呃疾病的一些初步的诊断建议。啊,然后这个是医疗那么代码,比如说呃,在代码生成方面的话呢,呃,那我们可以利用大模型去做直接写代码呀,或者是对你已写的代码去做一些订正啊,重构啊,这些都是它可行比较可行的一些,就是在细分的一些专业领域方面的一些应用场景。
19:05
那目前混员在腾讯内部的话呢,已经就是接入了600多款,就是内部的业务了,那其其中的话不乏就是腾讯会议啊,腾讯文档QQ,然后就是腾讯游戏,像这样的一些啊比较大的一些业务,那相信大家如果有留意到的话的话,呃,也可能会就是很容易在这些产品上也能够体验到,就是会员在上面的落地情况,那比如说在QQ上,因为QQ它是一个就是面向年轻用户群体的一个社交软件嘛,然后为了就是促进这个。呃,社交的活跃,然后去上线了很多的这样的一个QQ智能体啊,然后去做一些角色扮演,去让用户去实现跟虚拟的这样的一些,嗯,有个性的这样的一些人的,呃。的一些那个社交对话啊,然后那在腾讯会议上的话呢,呃也是就是上线了这个AI小助手,那他可能就是比较说嗯,我们在呃会前的话呢,可以去跟小助手去提问,说我这个会都有哪些人参参加啊,然后呃,以及他的这样的呃一些信息的查询,包括会后的话呢,也可以基于就是我们整个会议的内容去,呃就是。
20:23
去咨查询一些信息,就是快速的提问查询一些信息,或者说是生成一些会议的纪要,或者是生成一些代办啊,然后那么在比如说像嗯微信读书的场景的话呢,就是嗯,那可以去。啊通就是通过这个会员的模型,然后去呃查询这个文章的一些大纲,或者是小说的一些题要啊,然后或者是甚至于说就是我可以去呃做一些提问,然后就能够推荐出来一些相关的片段跟书籍啊。但这一系列的话呢,就是呃也是在有大量的数据的这样,或者是一些体验,然后能够去呃给了我们会员自己也提供了很多这样的一个,呃算是一个大型的练兵场吧,就是这这块的这些的能力方面的话呢,都在这样的一些大流量的场景得到了很好的打磨。
21:17
呃,那另外的话呢,就是呃像前面聊到的说,我们在这种,比如说文本生成的方面,然后我们去发一条朋友朋友圈,就是呃微信朋友圈的文案,那呃像这个的话,一般我们是用在这种,呃就把它放在这个搜搜狗输入法里边,然后那嗯可以直接去写一个指令,然后呃让这个。呃,模型去帮我们去按照要求去撰写一篇文案,我们可以去选择那个最合适的那一个啊啊,然后呢,还有就是在腾讯文档当中。嗯,然后他这个腾讯文档里边的话呢,呃可以就是呃按照模板,或者说是按照我们想要的这种,比如说呃生成一篇文章,呃或者是生成一个搜集表,然后去呃用这种多品类的呃这种格式,然后去呃完成客户的目标,那么这个是呃在可能在同一个比如说word文档里面,当然也可以就是跨品类,比如说呃能帮我从这个思维导图里面生成一份PPT,然后也是可以跨品类去做一些呃生成应用的。
22:27
呃,当然最后的话呢,还有就是除了文本生成文本,还有就是多模态去生成文的,这个原理的话呢,就不说了,基本上的话呢,就是呃,我们去提同时提取图跟文的表征,然后呢,基于这两种表征去送给大模型,然后去理解跟推理去做解答,那么案例简单讲一下,那比如说啊像给这种。呃,给一个图片,然后那我们去给这个图片去写个广告词啊,或者说是呃,基于某一个像这个电影啊,或者是就是基于这个图片去做一些呃知识的问答,或者分析推理啊,比如说介绍一下这个电影,或者说看到这个红绿灯之后啊,我可以去步行吗?然后或者说呃,甚至于说就是做一些数学的推理计算,比如说我拿到一个图表,拿到一个这样的一些几何的问题,然后都可以基于这样的一些图去做提问跟解答。
23:23
啊,那当然就是啊,这个也是我们内部的一个春节推广活动,就是根据由用户自行上传的图片去生成对联啊,那也是一个,呃,比较好的一个就是这种根据图片然后去做,呃,就是输出的一个这样的一个小的运营活动的场景。那嗯,也是那个我这边的这个分享的话呢,其实就是这么多啊,因为时间有有限那个啊,现在把这个时间交给主持人,嗯,好感谢王老师给我们带来的精彩分享啊,如果有疑问的同学呢,请您在问答区留言,我们的讲师会在问答环节为大家答疑解惑。接下来有请今天的第二位分享嘉宾,来自腾讯的产品专家黄可。
24:10
黄老师有着8年公有云产品的规划经验,从0~1主导过多款千万级的to b云计算产品,现在负责腾讯云大模型图像创作引擎的商业化拓展与产品成功,对于各领域的图像生成场景与企业AI转型有着独到的理解。欢迎黄老师带来智慧未来腾讯云大模型图像创作引擎应用分享,有请。呃,各位线上同学大家好呀,今天我跟大家分享一下咱们腾讯云在图像创作这一块,基于大模型的能力做出来的一些呃小小的成果,还有一些能力上的分享,也希望呢能够抛砖引玉,让大家在这一块等于一起能够有更多的一些拓展跟领先。呃,今天的目录主要分成这么几块,前面我会我咱们会先简单的介绍一下咱们啊产品的能力跟优势,接下来呢,会分成几个part去分享一下咱们能力的一些产品,因为大家都知道图像这块实际上它做深了以后也是有很多细化的功能的,那最后呢,我会跟大家介绍一下这边咱们已经明确落地的一些标杆的案例,还有一些场景,然后也可以给大家分享一下目前在AI在绘图这个方向,能够为大家在生活跟工作中带来哪些不一样的一些体验。
25:27
在开始之前啊,因为咱们今天这个分享是面向呃,很多同学的,可能期间可能甚至不一定有接触过AI,甚至是对计算机了解的比较少,就是咱们现在很流行的AIGC,其实上指的是人工的智能内容,它其实上是整个新一轮内容创作的浪潮,咱们从原本的UGC时代就是由。哦,团队去做内容的创作,到后面抖音爆火以后。人人都可以去创作这样的内容,再到现在是由AI带领的这样的生产力的解放,它用更低的成本让我们批量的生产文本、图片,甚至在很多生产领力的领域都可以有一个非常大的突破,我们就称这个时代为AITC啊,Open AI的创始人啊,奥特曼,大来的奥特曼,他曾经预言说AI会是在我们的工业、农业、it之后,为人类带来第4次革命。
26:14
在中期会有,在初步的时候就会有大量的中初级创作岗位被批量的取代,而未来的几十年呢,它其实会成为一种,就像现在会开车一样,它不再是一个专有技能,而是一个咱们都需要具备的一个通用常识,而这是实际,最重要的就是去拥抱这个变化。呃,这是一些咱们这边收集到的综合导向,呃,大家各位如果有一些是可能有做生意,或者是在这块行业比较关注的,我会知道咱们后国家这两年实际上都在做一些定向放水的动作,这个定向放水呢,具体就体现在这个政策上的倾斜,这两年从应该说从二一年开始吧,国家针对这块就非常密集的发布了大量的跟AI生成和AI创作相关的一些文,呃,文稿和一些政策重点解读,然后包括在这块的拨款,也是有一些非常大的专项活动,包括你看看很多的可能政府啊,啊,还有很多的啊国企啊,他可能会批量的采购这种大模型的能力是,然后或者说数字人能力,或者图像创作的能力,来为他的这样的业务去做一些智能化的转型的加速,这实际上本身也是一种国家意志的体现。
27:21
而在商业领域也能看到,这两年几乎是投资的一个狂潮,呃在疫情后半段,实际上有一句话,那应该是22年的上半年的时候,他就叫做如果你这个项目不占AI,你不用跟我聊,那时候几乎只有且尤其只有AI能够在这个赛道里再继续获得新一轮的融资的这样的资本含动力。而咱们去看整个资分呃投资的分布也会发现,从21年往后,它的整个的投资趋势整体是往上涨的,而且它的投资规模也是在越来越大,说明市场资本市场对这块还是有非常大的看好,而且更愿意去在很多的早期,在应用层和呃工工业层都去做一些呃铺垫性的一些工作。
28:00
咱们腾讯云的大模型图像创作引擎呢,目前是一款呃公有云的产品,通过API来提供这样的服务,咱们最底层是自研的图像模大,呃,图像大模型这块在网信办啊,工信局都是已经获得了咱们很早期的一个高级的资质的一个申请的。在网上呢,我们因为图像它是一个很复杂的功能,咱们经过定向的金条可以把它细化成通用的纹声图,图生图,写真,换背景线稿,换隐等等一系列的这样的一些功能接口,而每个接口呢,会根据金条和它的一些模型层的一些呃优化的一些工作,让他在具体的场景上会有更好的一个能力的体现跟展示,然后可能可以更好广泛的赋予我们像饭户啊,零售啊,然后运营商啊,游戏啊啊,其实让各行各业,包括车企啊呃,智能电器啊等等等等。咱们这边的产品优势啊,主要是这几点,首先咱们是纯字研的一个算法,以咱们自己的那算法字研作为内核,在最近的各项的比拼中,其际上都能已经稳居国内的第一梯队,那像包括像文生图,图生图,它一般考核的是包括像我们的图像的精美度,然后你文字跟图片生的图片的这样的一个一致性,然后你这个风格上的匹配度等等一系列的指标,基本在国内各项大模型中都是一个呃,保二争一的这样一个位置。
29:18
而且很多客户可能会关心说咱们跟海外的产品有什么不同,毕竟海外它是这个是技术引领的一个先先驱嘛,那实际上因为咱们是基于自研的一个模型啊,所以咱们会有一个高质量的中文与图文的一个数据的一个训练,我们整体的中文理解能力会远高于在海外的一些其他的一些同类的竞品厂商,而且呢,我们生成的图像的风格也会更加偏向东方的审美,其实这在证件照上就能看得出来,中文国人的证件照跟美式证件照在跟呃,中东的证件照,它实际上是风格上非常不一样。接下来是自由度高跟性能良好,这两块咱们可以放在一起说,因为模型可能AI这两年特别火的原因就是他一下从一个云端走到千家万户的身边,大家可以很轻松的去使用这些东西,那这里就有非常依赖于咱们对C端有一个非常友好的体验的感知,包括它的性能,通过蒸馏啊,量化压缩去把整个性能提升的很高,不容你去等待几个小时,甚至一前等一整天生成一个视频那。
30:15
再家它自由度很高,就是我们可以通过开放一些呃否见机所得的配置参数,比如说我们正向的引导词和负向的引导词,我们叫prompt,然后还有它尺寸啊,相似这些边分面对率啊,然后还有这更进一步,比如说我们的自由度的参数啊,甚至后续开放一些更额外的能力,那这样就可以不断的把这个能力的边界给开放给咱们的用户,让他们能够低门槛高上限的去体验到咱们的这样的一个呃,AI上的一个魅力。呃,接下来咱们开始分模块介绍一下咱们的具体的产品功能,那第一块就是文生图啊,顾名思义通过我们输入的文本生成相应匹配的结果,那这里咱们包括了写实风格,日漫风格,复古风格等等一系列,大概有25~20,我记得这应该是25种左右的风格,然后目前咱们出图的性能也是能够控制在5到,一般是6~7秒之间,实际上那这个性能在国内肯定也是非常领先的,然后这里它其实上用用的范围非常广,具体场景咱们在后面会再介绍。
31:14
那跟刚才为什么纹声图1:2带过,就是因为咱们会发现在传统的纹声图场景里面就这种,它实际上对你的用户还是有一定的,呃,怎么说呢,就还是有一定的序列的门槛的,比如说右边这张示例图,一幅优美的风景画怎么样怎样,它画出来效果可能离我们想象的afo好像还有有一些距离,这是为什么呢?这实际上就是因为我们并不是一个专业的AI绘画的使用者,那咱们很多时候可能没有办法从机器的角度去给他足够正确和正呃正正确和准确的引导,让他输入出足够好看的图片,所以针对这个问题,我们对呃,AI绘画进行了大模型上的能赋能,然后进行能力的升级,通过大模型让整个AF2是有一个更高级的一个版本,这个版本呢,除了能够生产出更精美的图像的呃质量和更多样的风格以外,它还有一个很大的能力是他有更准确的中文理解能力,他可以把咱们输入的更抽象的,更不具体的内容在内部去自己去进行扩写跟理解,比如我说一个。
32:15
和哦风的思念,好吧,这是一个非常抽象的概念,就可能在我们人类的社会语境里,它有一个画像,但是对于机器来讲还是非常难以理解的。那针对这样的场景,咱们的高级版养卫生图也能够很好的去给他理解,然后去做一些扩写,比如他可能会扩写成我猜到,比如说什么一个呃,过度的窗台呀,然后秋风吹过啊,什么掀起的裙子啊等等一系列的这样子的一个呃,更具象化的描描述,从而呢,让我们最后生成的效果达到一个更加理想的一个结果。这就是咱们这个文上图的一个能力。然后菜还是土生图,咱们目前是这个土生图基础版,是能够通过我们输入的图片和我们的一些配置的描文字描述,包括自由度等等一系列的配置参数,然后将这个图片进行一定的风格转换,比如说像这边的图像上,我们输入一个小姐姐,然后让他通过日漫风格去做一些处理,可以就看出现了一个日漫的一个小姐姐啊,整个相似度啊,包括她的肢体啊,然后发型发色啊,各方面人物特征还是保留的比较完整的,那她这个书性呢,大概也是在6秒到7秒之间,也是在国内非常领先的一个。
33:20
呃,一个水平,而且咱们的风格是的美精纬度啊,大家这里可能看的还不多,就只有一张图,后续大家感兴趣的话可以去体验一下,这边的精纬度在国内也是非常领先的,那这里其实有一个延伸的小小trick,就是咱们这里演示的是人物的风格化,那他能不能给别的东西做风格化呢?答案是可以的,就不管是说咱们给一些文旅的客户去做呃景区的风格,还是给一些萌宠做呃这样的风格,甚至在很多的设计场景,我们有客户会拿它,呃,给到一个底图,给到一个框架结构图,然后通过开放他的,通过调整配置,开放他的这样的自由度,然后结合上PRO的描述来生成更加多样的地图。
34:02
就比如说我有一张海报,原来是可能森林元素,我觉得这构图不错,但是它的元素不对,那咱们是可能就可以通过图生图来将它转换成另一个风格的,但是同样像的构图结构的这样一个内容,这也是其实上图中图非常强大和和有趣的一个能力。那刚才介绍的两个文生图跟图生图,实际上就是所有人对于图像创作这个领域可能最直观的理解,对吧,我们正常在做接触这的时候,就是无非就是文字出图和图像改图那。有没有,是不是只有到这儿呢?呃,理论上是,但实际上也不是,因为咱们会发现啊,在这些包括像文生土图生图领域,它有很多精细化的垂直场景,它光靠通用模型是很难去满足的,所以基于这个情况,我们就有衍生出了更多的细化的能力。比如说这块是咱们的AIAI写真,那AI写真它顾名思义啊,通过aiv咱们上传一个写真,你只需要上传1~20张的个人照片,让AI学习你的照相,然后它就能生成像右边这样子非常以假乱真的一些,呃,写真图片这个其实我们在很多的影楼啊,然后还有一些证件照的生成场景上已经跑得非常通了,大家可能近期应该去年吧,去年七暂开始被,呃,当时应该是是。
35:14
那个叫。应该是妙丫,妙丫当时也带火了一波这样的节奏,所以这块其实上也是经是非常成熟的一个玩法,它的整体生成效果跟质量已经完全不出我们在影楼拍摄的各种效果了。这是一种,它其实上就属于我们说的,我给你一张图,你生成的标的也是图,那可能在呃,不那么接触AI的人脸,你可能不就是图生图嘛,但实际上它肯定是需要一个更垂直的呃精细化的接口来才能更好的服务这个场景。呃,这也是一个土生图的计划,就是现稿生图啊,咱们都知道啊,在常规的设计领域,我们一般是设计师先拿到一个idea,然后给到一个现稿,现稿以后根据甲方的需求再去做各方面的润色和包括他的材质啊,光影啊,渲染啊搭配,然后给到一个整体的一个技术方案,呃,设计方案让甲方去评审,然后评审结果如果通过了,咱们再去做最后的打样和这些样本的上线,那这个过程中有很大的工算,工作量就发生在这个线稿跟真实的渲染图之间的这个getp,他可能会反复的去返工,而会消耗到设计师大量的时间,那现在这个线稿生图就是解决这个问题的,你可以通过输入一张线稿,然后对它的商品的类型,它的材质,它的光影,它的细节去进行各种各样的填充,然后来快速生成批量的这样子的一个,呃,设计的一个渲染图啊,当然你可以说这个渲染图肯定不如他的精美程度,可能未必能达到咱们真实专业的那种大牛设计师对吧,几天几夜设计出来的东西,那肯定是比不上,但它好在哪儿呢?他以量取胜。
36:41
他可以,我只要买的机器足够多,我可以一天生产几百几千张照片给他这样的渲染图给你,然后不同的画式,不同的款式,我从中挑到我满意的,让甲方去确认,确认到具体方案定下来之后,我再去这个基础上进行定向的一个训练,跟定向的一个呃,就是可甚至可以是人工的去做一些定向的精调,那毫无疑问可以为整个流程大大的缩短他的工作流的时间,这也是咱们实际上近期应该是这一到两年内,很多零售行业,零售设计行业,从呃,箱包啊,鞋服啊,包装袋啊这种的一些设计上,他都会快速的去跟进,去上线的一个能力,所以很快会跟已经会成为改变我们生活的一部分。
37:23
呃,再来这一块是被景替换啊,这个其实也是所见即所得啊,大家可能看到一看就一眼就能明白这是什么意思,咱们经常所有做商做生意的朋友都需要去发广告打海报,对吧?现在基本上营销是少不了那一年那么多节日,基本上从头到尾每天都在过节,每天都在提新的海报,新的广告需求,那很多时候商品图我就那一张,但是呢,我需要把它换着花的,去找设计师出底图,出各种各样的内容,然后换着花的一直去更新海报来刷新用户的,这样的在用用户面去刷存在感,提高自新鲜度,那这个显然是消耗了大量的这样的人力跟精力的,那通过咱们这个输入啊,咱们输入一个商品图跟他的mask,来让AI理解到中间这个商品是我们想要框定的主体,那结合上我们的的书的prompt,比如说我希望这个包,它是在热带雨林,它在一个绿意盎然的草地上,或者说我希望这个鞋,它是一个复古潮流的,它是在蓝天白云,周围有冰川等等,可以用这样的创业输入,然后结合他这个底图输入,就可以得到一张Q换背景以后的内容。
38:23
那之前我们自己实际接触下来,有些客户他会担心说,那这样生成的东西,他呃,图像的这样的匹配度会不会显得很生硬,这个实际上是不会的,它是个生成的逻辑,并不是简单的把商品粘进去,它是真正的让AI在这个场景下生成了一个这样的东西放进去,所以它在光影啊,呃,接触的质感啊,这些细节上,其实上都能达到一个以假乱真的程度,这里图片放不大,其实上这个,呃,像这个包这几个case就我觉得挺好看。对,然后在这这个图片上传之后用,那消费者或者说用户就只需要在上面再去做一些简单的呃,Logo啊,然后文字的描述的包装,然后甚至会加一些板框,他就能很快速的生成这样一张海报,那显然是大大提升了整个生产的效率。
39:07
呃,这边是一些,呃,以上那边都是咱们现在已经上线,并且您能够通过接口体验到的能力,那下面包括像咱们这边也是所经济组的,一个是AI换更衣,一个是这样全身的写真,反正其实上都是已经在能力已经ready了,即将都要陆续上线了,那大家也可以感兴趣的话也可以跟咱们线下去沟通,然后给到一个离线的体验,那这两个能力很显然也是一个在。零售电商啊,然后呃,摄影摄像啊,这些场景非常常用的一个东西,不管咱们是想要让自己去引流拍的,拍照能够突破资源币生成各种各样的孵化到不受限的这样的一个场景,还是说我们在电商领域,我们去卖衣服,去卖鞋,去卖包,我希望能够看到自己上身的效果,那这实际上都是一个非常能够直观的去让客户感性的,对吧,你在直播间看到,看到可能直播间小姐姐穿的很好看,那你怎么知道自己穿好不好看,你就在这个能力上试一下,那你试了如果对吧,他更感性的就会去形成一个转化跟下单的动作,所以这些能力相对来说它不那么酷炫,但实际上确实在,呃,各行各业已经开始实际上在改变我们的生活。
40:13
呃,以上刚刚介绍咱们所有绘画这边的能力,接下来跟大家分享一下在重点落地的场景,他们主要面对的痛点,呃,像其实上分几块,就是首先是在办户领域。其实像大家在。包括目前啊,咱们实际上最近刚在看,最近呃,就昨天前天刚做了一次呃竞品的review,这个刚刚发现,其实到现在为止,我们整个appstore上的排行榜头部的依然是一个呃,传统1.0玩法为主的这样的客户,他们可能就是贴纸啊,人脸融合这些比较传统的一些玩法,然后通过不断的加贴纸,不断的加滤镜来维持自己的生命力,但实际上这边已经这些玩法基本上都有个5~10年啊,也比较久,其实上比较呃很难去引起新的,我们已经很久没有听到哪个换脸是爆款,也很久没有听到哪个贴纸是爆款,对吧,就这个道理,然后再来就是电商跟传媒,他们为了塑造自己的企业形象,拓宽业务,他们实际上对广告啊,海报啊,软文,它的配图需求量非常大。
41:09
或了解到一些头部客户,他每年的电商,他做电商的,他每年在美术这个领域,就光是采购这些设计师的成本能达到千万元,那显然这是一个非常常重的成分,而且也大大的限制了他这个灵活性,这也是他们很头疼的一点。然后再来就是一些设计领域啊,他们可能是从设计到出土,这个就像刚刚说的,甲方永远觉得就是姹紫嫣红的黑,对吧,绚烂缤纷的白,这种真的是很荒唐的一些需求,实际上是。抽象而不具体的,那怎么去让这些需求具体的落地,或者说轻量的、低成本的落地,也显然是这些设计领域很关心的一个点。那最后就是各类的像文创教育,然后政府公关,然后金融这些领域,他们其实会有很多的绘本,PPTPPPP啊,比如说呃,像我是我不能说是谁呀,就像有一个头部的中国top top5吧,Top top top5的银行,他们的APP就是里面会有大量其实有很多不起眼的插图,但是这些插图会占用他们大量的成本跟资金,那这个显然也是一个非常沉重的负担,那辐涉到各种像教育行业的绘本课程的课件,那实际上正规企业他都需要采购这一块,那都是一个不小的一个成本。
42:25
那这是咱们的一个,呃,各个场景的细分的场细分的内容,后续咱们这个PPT可以分享给大家,那这里就不跟大家一个一个过了,咱们直接来看一些客户的落地吧。首先是营销,那这里其实上在所有的中大型企业,他都有这样营销的一个需求,就是他们会对自己的企业形象会有这样的一个呃定期的一个要求,所以我们不管是给央视,给蒙牛,给伊利,给呃电信、移动、联通,然后给友邦保险,呃人寿他们都做过这样的类似活动,通过AI哦,我去生成哪一个AI绘画的场景,告诉你说你春游要去哪个地方玩,那个地方像画一样的,那画长什么样呢?请看DCR对吧?然后还有像啊,各种团圆的节日,各种呃妇女节啊,青年节啊这些有典型的。
43:10
人群群体的节日,我们看一下自己的那个时候长什么样,我们看看一家人团圆的时候长什么样,对,这都是一个非常感性,也非常容易引起爆款和推广的一些玩法。再来就是营销转化场景,像咱们刚刚说到的,呃,天翼跟电信啊,在春节期间,他们肯定是希望大家能够去多使用他们的产品吧,多建议他们几个人的形象,甚至去提高一些,转化成成一些具体的收费,那他们就会把这些AI的能力,不管是写真还是图像图呃图像风格化到到他们的应用上能更进一步。还有很多咱们接触到一些AI的一些小工具,他们都去上线这样的AI能力,然后引导用户去玩儿,甚至去为这个更多的呃消费额度而去做一个付费。呃,再来是电商零售场景啊,这就像我刚刚说的,有些电商他在这块的采购成本真的非常高,它需要花很高昂的成本去设计它的海报跟广告,那这里它通过AI就可以去,呃,快速的基于同样的商品图,或者说同样的结构图,去批量的生成它不同节日,不同节气,不同主题的这样的一个商品海报,那显然是大幅的降低了它的创就创作链路跟整体的营销成本,也是一个非常主流的一个场景。
44:20
呃,再来这个就是咱们说的配伍跟配文跟配图,一般是出现在教育传媒会比较多一些,他们会有大量的文案,会有大量的绘本啊,这些实际上都是呃图像生产内容比较多的,那他对颜谨要求不那么高,但是他要求你画面足够精美,而且要足够吸引,吸引各种,不管是面向广呃普罗大众,还是面向小孩子,他要足够好看,如果有意思,那如果是AI有这样的噱头就更好了,对吧?所以他这块显然是能够通过AI来快速去完成一个批量化的生产的。嗯,这个就是设计的领域,像刚刚咱们有在介绍能力时候有提到过啊,各类的服的行业,它需要通过这个方式去压缩它的整个创作的流程,去提供大量的生图的灵感,为他的设计师去做一个设计上的助力,他并不会完全取代设计师,而是不会用AI的设计师被会用AI的设给取代掉了,因为他后者的生产力的效率是大幅提升的。
45:14
呃,最后这个就是影楼摄影跟写真,这刚刚跟大家也有分享过,不管是说咱们是做呃线线上的一个呃预赠送,或者说圣件照的一个生成,还是我通过换衣跟全身写真去做一个线上客户的激活,到线下去做转化,那实际上都是一个到目前已经非常成熟的一个玩法,今年年初的时候,应该大家在抖音上如果刷的多,可能都有看到一些所谓的什么呃龙年证件照,龙年孕妇照之类的一些,背后他实际上都是一些具体的影楼,那他们实际上已经都在紧锣密鼓的把这些能力上到自己的线上业务去,呃线下线上的业务去做一些融合和心打通,一方面下面增效,一方面也可以提供更多的想象空间。那像刚咱们说到的友邦啊,央视啊,二支股啊,蒙牛这些都是咱们的客户啊,时间有限,咱们这边更多的客户咱们就不介绍,确实是啊,是这今年真的是一个全民接AI的年代啊。
46:06
OK, 因为时间紧迫,我今天就后面就比较快的跟大家分享了一下咱们的客户的场景,那以上就是咱们这边关于AI绘画的分享,那我这边就分享结束了,有请导播帮忙引入一下下一位老师。嗯嗯,感谢黄老师的精彩分享啊,如果有疑问的同学呢,也请您在问答区留言,我们的讲师啊会在最后的问答环节为大家答疑解惑,那接下来呢,就有请今天的最后一位分享嘉宾,来自腾讯云的产品专家赵新宇老师,赵老师啊有着10年的互联网以及AI产品的从业经验,持续深耕在AI的领域,现在负责腾讯云大模型视频创作引擎的产品策划,致力于加速视频AIGC相关产品,赋能各类视频创作场景。欢迎赵老师给我们带来创新世界腾讯云大模型视频创作引擎应用分享,有请。好,谢谢主持人,然后我是赵新宇,然后很高兴呢,能通过这次直播跟大家去分享一下我们全新的一个产品品牌,腾讯云大模型视频创作引擎,然后呢,我们最新的一些,还有一些我们已经落地的一些客户,那这块分的话主要包两部分,第一个是们产品绍和我们能力的一些呃演示,然后以及我们目前的一些成功落地的案例。
47:27
大模型视频创作引擎呢,我们主要的提供的这个能力是呃以这个API的这个呃形态的一款pass的产品,然后主要会包含视频生成,还有视频处理,那会基于我们现在的混原,还有腾讯呃多模态的这个音视频的一系列这个AI的能力,然后呢,我们希望能够帮助到不管是专业的视频创作场景,还是说一些趣味的视视频社交娱乐场景,然后能提供这块儿的一个能力,然后呃做一个这样的一个助力和推动,那这块用到的算法其实会非常的多,大家可以看会包括这个音频相关的SRTS的啊,人声分离,包括这个文本处理的呃,文本翻译,还有一些视频的处理,人脸,还有一些呃A,包括我们整个产品的话主部分。
48:28
呃,三大类啊,一个就是视频转移啊,第二个是视频生成,那这块儿会比较多,像视频的风格化,像图生视频,就是运动笔刷,像这个画布拓展图像跳舞,还有这个接下来我们要再去上的这个纹声3D以及纹声视频这些能力,然后以及呢,我们还会有一些相对会比较成熟,目前腾讯云在这块儿是处于行业非常领先的这些人脸融合的相关的产品,那主要服务的这个场景的话,会包含这个呃户传媒、技术教育,还有技术服务,广告或者出行都会有我们涉及的这个呃,产品支撑的这个客户,还有一些相关的落地的案例。
49:13
那接下来我们首先看一下这个视频转哈,视频转译的特点呢,就是我们会把一个中文的视频或者英文的视频翻译成英文或者中文,那翻译之后或者转译之后的这个视频呢,能够保留这个说话人的音色特征,听起来就像我在是再去说这个英文,或者听起来就像郭德纲在讲英文一样,然后同时呢。视觉上我们会发现这个说话人的口型会跟我翻译之后的目标语种是保持一致。那这个我们有个案例啊,就是我们有一些出海的产品,那平时呢,我们可能会做一些中文的这个产品的一些介绍,或者是营销广告的材料,那出海的话,如果我们快速的想把这个材料制作出来,很简单,我们就用我们的视频产品就可以了。来,我们可以听一下这个效果,这个是原式的这个视频哈,接下来我们将为您展示腾讯云会议人脸和身产品在各种攻击场景下强大的防御能力和真人识别通过率。好,这是一个很短的片段,我们听一下我们转移之后的一个效果。
50:14
大家也可以关注一下这个口型,Next we will show youtencent cloud eic products in various attacks scenarios strong defense capabilities and real person recognition pass rate.所以我们刚刚,呃,我可以再播放一遍啊,Next we will show you Tencent cloudic products in various attack scenarios strong defense capabilities and real person recognition pass rate.这段移的效果的话,我觉得可以有几个特点啊,第一就是刚我们提到的会保留这个人的音特征,那这个是我基于我们在T,然后语听起来和听听觉都会听起来特别流畅自然,然后另外的话是我们还会保留这个视频的背景音,大家可以回忆一下刚刚那段视频其实有一个很复杂的背景音,那这块是我们用了目前全球比较领先的这个人分离的技术。
51:19
然后另外呢,就是我们还也可以支持这个对视频,对于这个呃,视频的内容进行一个人工校验,比如说我现在有一些专有的名,我在的时候,我们可能目前的的效果,我需要做一些,或者那这块是可出。那这里用到的这个技能力的话,我们可以看会理这个办,再到我们对视频轨道,我们会做这个视频口驱动。然后相当于是一系列的这个视频的能力,我做出来的这个效果。
52:00
然后这块的场景的话会呃会比较多,不限于我们现在看到的这些,包括海电商可以快速的去一个能够呃吸引海外客户,海外用户的这个视频素材,还有一些视频的本地化,就是有一些YouTube或者是其他的insram,一些比较好的视频,我们可以快速的拿过来做一个本地化的这个处理。还有一些就是政策性的,比如说我们有一些地方台或者是地方媒体会做这个对外宣传。那很好,我们就可以用这个能力,就快速的会有一些英文版的这个翻译的素材,还有一些语言教育的场景,其实都可以去用到我们这个视频转移的这个这个产品。好,接下来呢,呃,我们来介绍一下视频生成,就刚刚刚大家其实看到这个框架图啊,视频生成我会现在会包含这个视频风格化发布拓展运动比图,以及我们会持续上呃线,就是呃3D或者是视频这些呃基于视频生成大模型的这些呃产品。
53:09
对,我可以先看一下这个视频的风格化。稍等。这个视频风格的话呢,我们可以看到这是大家可能都看过这个电影啊。呃,然后我们把这个熟悉的电影片段呢,我们做了一个的风格化的处理,以及一个3D的风格化处理,那这块其实会有一些非常复杂的光影,还有一些服饰的纹理。那我们其实呃,整体上看的话,它有几个特点啊,第一这个画质非常细腻,然后一致性和连贯性也非常的好。然后呢,人像我们也做了针对这种特定风格的这种美化的处理,然后另外呢,我们可以支持到一个很高的这个分辨率,可以支持到2,然后风格的话,我们目前可以提供四种风格,包括我们现在看到的动漫,还有这个动画3D以及这个像素风格,还有一个3D国潮的风格,然后接下来我们陆陆续续的话,会有这个十几种的这个视频风格化的这个风格上线。
54:10
好,接下来是这个图片,跳舞就是我们只需要一张图片就可以,呃,一张人像图片可以让这个人就是按照我们的舞蹈模板舞动起来。那我们可以看一下这个效果,这是一个兔子舞的效果。这个效果有几个特点啊,第一就是他的发型和衣袖的摆动其实会非常的自然。然后另外呢,就是这个服饰的褶皱效果也会比较真实,我们可以看到它这个裙子它会有一些褶皱,那这块的生成的效果就会很真实,很自然,就看不出来像是哪一张图片,生硬的去跳舞的那种感觉会比较就看起来就像是他在去做这个跳舞。第2个呢,就是它其实会有一些遮挡的部分,比如说他这个鞋的鞋跟儿。
55:01
如这个的这其实这张片当并这块的信息A如。这个衣服的这个部分,然后另外的话就是对于一些复杂的背景啊,我们可以看一下这个效果。就后面有一些复杂的玻璃啊,复杂的这个建筑的线条,那像这种。我们都可以有一个很好的稳定性的处理,就是后续就是背景其实非常稳定,然后也不会有一些啊,类似于果果冻效果或者或者抖动的这种出现。然后另外呢,我们也可以看一下这个细节,就是这个在跳舞的时会有些光影效果,光影效果除了这个人之光影部分有。好,接下来是这个运动笔刷,运动笔刷的话就是相当于我们只需要一张图片,我们可以生成这个和这个图片相关的一些运动的视频,那这有两个啊,第一个就是呃,我拿一张风景照,那我希望他的才可以按照这个方向去弄起来。
56:17
那这个就是我们生成的这个视频的效果,可以看起来它确实就像我们真实在拍摄的数据一样。然后这个画面是很流畅的,然后清晰的话,我们也可以2K,然后同时呢,我们这个大模型会考虑到这个视频运动物体的一个运动合理性,就是这山肯定是不会动的,然后动的话只能是这个意,然后同时还会有一些美学质量,那说到运动合理性的话,我们这个case可以可以更好的去体现一下这个效果,这是一个果汁啊,我现在倒果汁,我希望它能动起来。对,这个倒的过程当中,首先这个手需要向上抬一抬,然后其次这个水流它会有一个流动的效果,另外这个杯子中的果汁的话,它会有一个呃,上涨的一个过程,大家可以看一下第一针的最后一针这个效果。
57:12
所以就是这个大模型呢,会有一个非常准确的这个运动合理性的一个生成,或者是呃,预测能力。好,接下来是这个发布拓展。呃,我们现在左侧的话是我们的输入照片,可能会只有一张竖屏的一张图片或者是视频,然后呢,我们会把它扩展成一个横屏的,这是一个人在这个苗圃当中去摆放花盆的这样的一个视频,那其实呃,左右两边其实都是我们。视频发布拓展生成出来的一个效果。其实看起来。很难辨别是个生的。然后这块呢,是一个人在去做这个蛋糕。
58:03
那这个背景就更复杂了,这个背景会有一些的效果,背后的内容其实都是有一个虚化的效果,包括它的前景会有一个虚化的效果,我们看一下这个播放的感觉。那这个案例的话,其实我们可以看到腾讯视频创作引擎的这个视频布拓展,它的拓展相关性是非常强的,很难去辨别,这是因因为呃,通过生成的方式来去拓展的,还是说实际拍摄就是这样的,第二个呢,就是我们能够很精准的去理解这个画面的景深。它的景深,还有这个物体的局部,比如说这块是有一个洗碗机,或者是一个烤箱那。我们就知道它的在左边就应该是一个柜子,而不是说把这个黑色的部分只是单纯的延伸过去,所以它会能够很好的去理解这个物体的属性,还有一些呃,物体的一些运动的方式,另外呢,就是这个可拓展性是非常强的,我们的高比可以支持从1比到4:1这么大范围的一个比例的拓展。
59:23
可以更好满足我们各种不同类型的场景需求。呃,以上就是视频生成的部分,那这块其实呃用景会非常多,这个专业的广材可以满足不同的,还有些投的图片或者视频能够动起来,能够秀起来,还有一些专业的视频制作,比如说我们需要有一些视频创意,那其实可以用到。
60:01
呃,现有的这个视频创作引擎的这个视频生成,以及后续的本身视频的能力,然后呢,还有一些趣味营销,嗯,比如说这个图片跳可以我们的营销场景,可以让更多的用户去参与进来,然后引这个流量。然后这块的一些实际落地的啊,一个是广告制作场景,像这是一个简单的一个广告的片段,它可能只有一个竖屏,那我们需要在一个呃PC端,然后比如说视频的呃,视频的前前置部分,我们去放这样的一个广告,那的话肯定体验不好,那我们就快速去把它去做一个这个视频发布拓展。然后同时的话,我们觉得这个广告投放可能会有点单,我们也可以把它把这个视频风格化加入进来,可以看一下这个风格的一个效果。就是可能会有一些儿童或者是一些呃,二次元相关的一些用户对这个产品或比较感兴趣的话,可以用这个视频风格。
61:10
那这块的话是我们有一个目前比较头部的一个金融企业,他们现在用我们的2D动漫或者3D动画的这个做了一个视频化的处理,然后呢,让这个广告更加新颖的人物更有亲和力,因为我们有一个美化的美颜的一个处理,那可能我们再去制作这个广告素材的时候呢,可以忽略掉这个角色的选型,或者是呃,演员的这个成本的问题。因为颜值带来的这个演员成本的问题,然后可以更好的去提升我们的广告的转化率,还有这些曝光权重,还有一个是广告代理商,然后广告代理商的话是通过我们现在这个视频化拓展呢,可以将竖屏的这个广告,然后转拓展到这个横屏的这种素材,可以满足多端的广告的投放需求,然后可能这样下来用户的广告观看体验会更好,然后点击率也会有一个提升。
62:07
好,接下来是一些专业的广告制作,相信大家之前都有看过这个片段啊,也就是呃,我们混员和人民日报合作的一个江山如子多娇的一个视频片段。此刻,幼苗破土而出。江河破冰入海。我就在这里,那我们完全丢到这里。大家可以在公众号上可以找到这个这个视频片段,那这个的话我们会用到很多的,我们的视频的生成能力,包括这个运动笔刷,图片生视频,包括视频插帧,包括声视频,包括视频的画布拓展,还有这个呃,艺术字的视频处理。
63:00
还有一个呢,就是这块的场景,这块的落地案例啊,除了我们现在看到人民报的这个场景之外,还有一些专业的视频制作,比如说一个健身类的APP。然后呢,传统的健身他可能会有一些真人来去指导我们去做一些动作,但是真人的话,他可能会缺乏一些亲和力,那用户呢,就我们的客户呢,会选择用我们的3D的动画风格去做一个处理,让用户觉得这个指导视频更有亲和力,更有美感,然后用户的实际的参与度会有一个明显的提升。那这个场景就是一些社交娱乐的场景,我们可以让这个普通的拍摄的这个视频能够有一个动漫画的一个效果,以及我们的图片,跳舞的这个能力,都在这个场景当中有一个有一些很好的落地和应用,我们可以看一下这个片段。对,我们可以注意到这个视频的话,它其实是动起来非常的快,那对于这样的一个,而且整个的背景也是会非常的复杂啊,视频的元素也很多,那这种情况下,我们的风格画面效果大家可以看一下。
64:19
这个的效果的话,其实呃,在这个画面的一致性,还有这个流畅度上。都会呃,相对来说会非常好,在目前这个这个国内的这个视频的风格化这块。呃,这块除了这个社交娱乐之外呢,我们还有落地的就是摄摄影创意类的。然后会增加一个图片动效,还有这个短片的风格化的这个功能,然后为这个C端的用户视频交提供一些创新的一些玩法。然后用。对,这块就是我们视频生成这几个能力,在专业的视频制作场景,还有在我的社交娱乐这些场景的一些应用的案例。
65:06
当然我觉得还会有更多的一些场景,其实也比较期待大家能够和我们一起来去共同的去发掘,然后共同的去打造一些差异化的啊,产业落地的一些能力。You got them.好,接下来是人脸融合,人脸融合的话,呃,这块讯云其实已经耕耘了很多年,一直属于我们业内非常呃的这样的一个效果和能力,但是呢,我不会仅限于目前这种效果,会在我们又在今年推出了片视频量视频融合的。专业版本。我可以看一下这个效果图片内容或者专业版的话,我们可以增加,呃,这个。呃,模型的数量它不再仅限于之前只有一个模型,那我们会提供多个模型,5~6个模型,然后这个模型有什么作用呢?接下来我们可以看一下,然后另外呢,我们提供了一个可配置的这个相似度的一个调整,同时我们的分辨率已经可以支持到88K的这种分辨率,然后还会支持这个后处理,包括这个磨皮美化,还有牙齿的这个后处理。
66:15
同时呢,包括这个人脸增强也可以支持的,然后这些模型的话,我们可以根据呃,实际的场景,我希望这个图片更像真人一些,更像人脸图一些,或者更像素材一些,都是支出。基础版就是之前的基础版的话,我们可能会用于这个活动的宣传,线上的营销,线下活动,那这个专业版的话,我们可以用在这个专业的图像处理,比如说一些广告创意,比如说一些摄影场景啊,这些场景其实会更适用于我们这个专业版,我们可以看一下这个效果。那这是专业版的两个不同的模型的版本啊,这个这个是用户图,这个是素材图,我们希望把这个用户图的人脸融合到这个素材图上,那有不同的场景就会有不同的需求,比如说我现在需要这个人脸,会保留这个素材图的这个妆容,它妆容当中可能会有一些红色的腮红啊,或者是一些眼妆这些效果,那我们就可以选择其中的一个模型,那如果我希望这个最终融合的效果会更像这个真人一些,可以用这种。
67:21
这个另外的一个模型,所以我们提供了更多的这种可控制性来去帮助我们的用户来针对这个特定场景来去做一些选择。然后另外呢,我们也提供了这个相似度的一些配置,比如说这个人的脸型的话,其实就会比较宽一些,比较一些,那我们素材图可能会就比较窄一些,那这种情况下我们有一个拉的效果的一个配置,比如说这个参数我们可以配置到0.3,那就稍微在这两个中间。居中的一个脸型效果,但如果拉脸打到1.0的话,那这个脸型会更像我的这个用户图。同时的话,我们也有这种美颜的一个处理的效果。
68:02
接下来就是一些牙齿的增强,就是这个牙齿增强之后可以明显看到这个牙齿啊,视觉效果会比之前的版本要好一些。好,接下来是视频人脸融合,同样也推出了一个长视频的专业版,它可以支持到最多6人脸的这个,呃,人脸融合,然后同时呢,这个人脸的水平转动角度我们可以支持到60°。就比之前有一个很大的一个提升,同时我们分辨率还有这个这个帧率都可以提升到4K和62P。然后对于遮挡的效果,比如说手部遮挡或头发遮挡,或者是帽子的遮挡,都会有一个很好的处理效果,那这块的场景呢,短视频的话,我们主要用于一些C端线上的营销活动宣传这些场景,长视频的这个基础版的话,我们可以对在这个短视频的基础上,我们可以做一个补充,比如说有一些资讯的播报,比如说一些送祝福的这个场景,那么这种娱乐性质或者社交娱乐的场景,我们其实可以用这个版本。
69:09
然后还有这个长视频的专业版,就这次新增的这个可以用一些相对会比较专业的这个视频制作场景,包括这个短剧,包括这个广告制作,还有数字,然后处理这些都是可以的,那同时我们还有一个影视级的离线服务啊,这个是包括一些MV啊,或者是虚拟偶像或者是啊,对这个效果要求非常高的这种效果,我们也可以提供这种线下的一个支持。好,这是我们的一些效果,这是一个短发这个事。他就是welcome to the marvelous AI journey your digital human partner.With AI face swap technology upload your photo.这个是娱乐播报。她在80年代当后妈,我在春节档期赚钱。这个就是融合之后的一个效果,那专业场景的话,那就是离开广告的制作的场,这是一个广告场景,我们融合出来的效果。
70:09
可以看一下这个皮肤的细节。Okay.也就是我们的视频人脸融合的专业版。他在巴黎。呃,大型视频创作引擎的分享就到这里。然后接下来有什么问题的话,可以随时联系我们。好的,非常感谢赵老师给我们带来的精彩分享,那接下来呢,我们就将进入到今天的QA环节了,有请三位老师来为我们解答问题,那首先呢,有请我们的小婷老师,嗯,我们的线上观众呃问啊呃,想让大模型扮演一名专家,给用户提出的某一领域的问题给予专业的回复,那我们积累的数据如何作为知识库提供给AI?
71:03
哎,好的,嗯,那。首先就是呃,就是如果说想让就是这个模型去针对某一个细分的领域去提供这样的一些专业回复的话呢,就是我们首先要看就是这个数据的量级有多大,那呃如果说就是我们在提问的时候,他呃是知道是说就是呃可能在哪个范围,然后那其实是可以把这个范围就参考范围,然后呃随着这个模型的输入,然后一块儿给到大模型,然后去参考这一段去呃作答,这是一种方式,但是呢,有时候就是嗯企业它的这个知识库的容量会特别的大,那已经超出了我们模型的一些这个输入的上限,那其实还有一些比较通通用的其他的做法,那比如说呃训练模型,当然这个训练模型成本会比较高,那还有一种替代的方式呢,就使用RG的方式,就这个后者的话呢,是需要就是我们的企业自己去自建一些这种向量的数据库,然后去做一些向量的检索。
72:06
所排序,然后再把这个捞出的数据去给到大模型,可能他中间还有一些策略跟他plan的建设,然后那如果说我们的企业就是或者是开发者,他没有这样的一些呃开发能力,或者是觉得这部分的呃开发成本过高的话呢,那也可以在腾讯云上去选用这个腾讯云大模型知识引擎啊,然后我们也是在模型的基础之上去,呃,考虑到这样的一些问答的这种基于知识库的问答场景,去做了这样的一个呃应用出来,那也可以选择就是混圆的各个版本去作为机理的模型,然后去实现你要的这样的一个呃对话效果啊。嗯,好的好的,谢谢,那下一个关注的问题还是给到小青老师,那希望老师呢能分享一些混圆文本生成的弊端案例。呃会也会有比较多,其实呃弊端的案例,其实很多的弊端案例,它也是为了服务他的C测的客户啊,那所以其实本质上来讲呢,跟前面分享的这些案例的差别,差异不是特别的大,那比如说像呃这种我们服务的这种耳机的厂商,然后他会去呃洞察到说可能会帮助客户在这种。
73:23
移动会议的结束之后,能够生成一些会议的小结,那其实跟我们在做这个支持腾讯会议的这样的场景是一致的,那还比如说哈,就比如说有些直播的场景啊,或者说是一些就是营销啊,咨询文案生成,那可能就是去输入一些这种,比如说他自己的这样的一些产品的这种受众爱好啊,正负声量啊,然后让模型去基于这些原始的指令跟数据去分析说这款产品的营销表现,以及说后续的一些营销重点的建议,其实都是一些比较,就是常见的一些呃案例跟做法,但是具体客户的话就不方便就是透露啊。
74:06
嗯,好的好的,嗯,那这边就观众呢,想了解一下如何避免QQ智能体在群聊当中生成一些软色情擦边的消息和图像呢。嗯,这个呢,其实就是我们在这个混源的安全策略上,然后重点去解决跟保障的啊,那因为嗯模型的生成的不可控性,所以安全这一块的话呢,不管是在这种呃文本生成还是说agent的应用啊生图其实都是呃一样就是在发挥它的作用的,那会包含说呃输出的这个内容里边,那我可能刚开始就是会过一些安全的模型做初审,然后那在流失输出的过程当中的话呢,也会去用我们的一些比较成熟的安全产品去做二次的审核啊,当然这个里边呢也会呃根据就是我们就是这种模型接入的方式不同,然后也会有一些不一样的这样的一些体验吧,比如说如果说我们去选择流失输出的话,那可能我们在嗯逐自去监测的时候,发现说它呃出现了一些敏感的内容,然后就会中断,那如果说是比如说是一次性输出的话。
75:18
话,我们就直接就是在全文就是监测完之后发现他不合适,然后就会返回一些嗯,敏感的一些字段,然后告诉这个业务方,就是这个是输出不了的,还是在安全这块做了一些这种内容的输出的一些比较严格的把控的,会保证这里面的一些安全策略,嗯嗯,好的好的,嗯,那接下来这一位线上的朋友想了解,他搜了一下混圆大模型的小程序,里面有一些功能呢,体验不到,那是否要使用混圆大模型的API接口来获得效果。嗯嗯,好,就是混员助手的话呢,其实是一个面向C端用户体验的一个呃TOC的产品,那其实这里边的话呢,它的这个嗯就是更新的这个范围,跟我们实际上能够对咱们开发者或者是企业使用的还是稍微有一些差异的,或者说他在此基础上也是做了一些呃便于体验的一些开发,那呃怎么去获取到,就是我们就是能够去接入的这些功能呢?就是在腾讯云官网上可以搜索那个混呃会员大模型,然后那么呃现在已经开放的呢,是呃这个声文的这个PRO版本,Standard版本跟light的三个版本,那么即将上线的话呢,就是嗯马上就是会声文会扩展这个长文长文模型啊,然后呃生图啊或者生视频,然后也会陆续的会有接口,就是更新进更新到这个,呃,腾讯云的官网上面去,我觉得大家可以最最近一。
76:51
一段时间可以关注一下啊。嗯,好的好的,那这边还有最后一个问题给到小婷,呃小婷老师,请问混员有哪一些功能接口,还有收费规则是什么样的?嗯嗯,目前的话呢,就是呃是按照这个模型的API去调用的啊,然后呃就是收收费这块的话呢,也是根据就是不同的这种能力去看的,比如说一般声文的话呢,我们就是按照tokens去做收费,那具体的话呃价格就每个版本它会有自己的一些特征啊,然后还有就是一些价格的差异,大家也可以在这个腾讯云官网上,呃就是在文档中心里面,然后可以具体的看到,然后呢,包括比如申图的话,它是按章然后去呃收费的就是会呃根据这种能力的不同,然后会有它的各自不同的收费策略,当然最近的话呢,呃,就是银行派个关子,就是我们也会,呃,就会有一些呃,就是比较优惠的力度,然后会出来,然后并且呢,现在能。
77:53
可以对所有的这个企业的开发者跟个人认证过的,实名认证过的开发者都是全面开放的啊,那大家最近可以关注起来啊。
78:02
嗯,好的好的,非常感谢小婷老师给我们线上观众的专业解答,那接下来有请黄可老师来帮我们回答一下观众朋友的问题啊,嗯,首先第一个问题是本次的混源版本会有PC软件端以及网页端吗?呃,咱们会员目前在PC端跟网页端都有一些相应的能力,但是目前还没有,呃,直接开放到各位C端的同学这边,大家可以等待一下后续的能力陆续上线。嗯,好的,那再请问一下老师,我们绘画的图生图在哪里可以体验呃,图生图的功能,各位可以在呃,其实像刚刚的PPT后续应该会发给大家吧。会发给大家吗?嗯呃,会的话,里面其实上呃一个是在咱们的官网就可以直接体验到咱们的基础版的纹声图跟图生图了,然后其中的话,高级版的纹声图咱们其实让你层打通了,这个刚刚提到大语言的能力也可以在呃,各位可以在混原小程序里面直接让他给你画,走的是同一个接口,只是说可能因为文字描述没法接口那么便利而已。
79:03
好的,明白了,那黄老师刚刚讲到的案例里面可以有更详细的一些操作的例子吗?可以啊可以啊,这里实际上,呃,刚才受限于时间嘛,就很多客户都快速的就咱们就过去了,呃。呃,因为现在也不方便再投屏了,我就抽几个咱们这边印象里面比较深刻的客户来讲吧,其实际上从最早一批用起来的肯定还是那种非呃属于偏娱乐,然后更在意的是它的美观度跟一个精细,精细化的程度,那这一块像比如说呃,刚才提到的像基本上三大运营商都有在使用咱们的产品去结合到他们自己的,呃,因为大家知道运营商他们也有各种各样的APP小程序,然后各种各样的端,那实际上这里啊,不管是去给用户去生成一张很好看的心灵写真,新年海报,还是说各种各样的这样的绘画的创意的,比如说央视去生成一张你想去哪里旅游,当时是疫情刚分红刚结束嘛,那可能想引到家出据户外玩,那都是一种非常好用的一种创意生成工具,因为它天然的带有这种不确定性,我们每个人都有很强的参与感,对吧,我去画,我用我的输入不受限的输入去生成一个我理想的样子,而是这个东西呢,很可能跟我的输入有强相关,甚至是跟我的长相和我的家乡有强相关,那这个事儿自然而然就很容易引起他的流量的转发。所以这。
80:17
这些活动都是办的,都是比较成功的,转化跟各方面都非常的不错,然后再来就还有一些实际使用场景,包括说像这种。呃,在设计领域,咱们就像提到的,虽然不太方便提供啊,但是可以给大家透个信儿,就是国内头部的,就是大家只要是国产的鞋服箱包品牌,大家能叫得上名的啊,基本上都在往这方面在靠,对大家就知道有这么个事计好具体是哪些客户,咱们就就无方便同步了,就他们会通过这种现稿的方式去极大的压缩它的这样的一个设计的工期,对,这也是一个我觉得生产力非常非常专,非常经典的一个场景,然后再来一个就是说啊,比如说咱们央的影楼摄影摄像,现在实际上大家不知道有没有接触过线下影楼啊,生意不好做,他们实际上也会有很多的转化的难题,因为互联网时代,你不再可能依靠纯粹到店的流量转化了,甚至到店了那么多的衣服,大家可能拍过婚纱或者拍过写真都知道,那么多的衣服,这个套餐说送你3套,那你真的是真的能能能把人老命试出来,那怎么通过线上获客,怎么能让客户从线上到线下有一个一致的心流的这样的感知,怎么让他在线上线下每一个决策节点有一个非常性感的个。
81:25
和刺激或者冲动让他能够去做这件事情,那不管是通过我们的写真,还是通过我们就是半身全身写真,还是通过他的服装的更换或者背景的更换,显然都可以让他得到一个非常。非常直观的一个冲击跟体验,他可能就一些一诶这个东西我换了好像还挺好看的,那我不然就试试这一套,或者我就去做这件事情,而且一些更科幻更超脱的一些孵化到也可以通过AI的方式来实现,这个在期待大家可能我觉得个人体感可能每隔一两周吧,就是在抖音上就会火一个这样类似的一些新的小玩法,所以我觉得这些都是呃,非常实际的在影响我们生活和改变我们生活的场景,在这个不更,比如说今年基本上大家看到手谈到手机必谈AI,谈到车载必谈AI,对吧,它的整个的在图像,不管是对呃各方面嘛,实际上这个展开就有有点多,它在各方面对我们的深望还是非常大的,嗯。
82:19
嗯,好的好的,那接下来请问一下黄老师如何做模型微调呢?呃,模型的金条这里实际上还是比较复杂的,咱们先前有短暂的尝试去开放给用户自己去进口,但是效果不是特别理想,因为它的学习门槛确实非常的高,所以目前咱们的通用的模式做一个公有云嘛,咱们还是以一个标准能力,标准API的方式对外提供服务,然后呃,没有开放到用户这样的一个自己去金条的一个入口啊,但是如果客户这边有一些很就针对一些客户有定向的需求,咱们刚才那个产品介绍里没有提到过的,咱们其实上是支持模型定制的,就是呃一些也是一些不方便,但是发出来他就多少熟能下的的是,一般是餐饮品牌,他们会有自己的品牌的ID,会有很明确的logo,会有很明确的设计风格,嗯,他们可能会觉得通用的模型跟我的风格不搭,跟我企业调线不搭,那这种情况下就肯定是要走定制的这样一条,但这个可能就是它的流程啊,包括它的设计周期都会比较复杂,都比较长,都比较复杂一些,然后也会涉交咱们这边的,呃,算法的小哥去跟。
83:20
做一些深入的沟通,这个可以,有需求的话,咱们可以下来再深入的交流。嗯,好的好的,那接下来最后一个问题给到黄老师,请问绘画可以实现角色的一致性吗?呃,这里其实上还是一个比较有意思的难点啊,就是所谓叫ID保持,我们在行业内叫,就比如说呃柯南或者说孙悟空吧,孙悟空这种ID可能还说是大家耳熟能详都知道的,但如果咱们是今天设计了一个叫黄可的ID,他长这个样子有有两个眼睛,一个鼻子,一个嘴巴,那实际上你想让在他在连环画或者绘本里面从头到尾保持一个固定的形象,这个目前还是有一定难技术难度的,那咱们这边目前比较推荐的方式呢,其实上是给到一个呃方向性上的设计,比如说他是个大脸盘子,然后呃黑眼睛黑头发,然后一个亚洲人的面孔,给到这样的一个设计,这个细设计越精细越好,那如果把这个设计框定到某一个程度,那可以尽量让这些图像中的人看起来相对来说比较一致,有一点点像什么呢?有一点点像,呃。
84:19
日本的动漫产业里面,其实上很多的卡通角色长得是高度一致的,它只是换了它的同色跟发色,就是如果我们能生成了一个这样类似的。就是。抽象的人,然后通过这些特征来给他做强化,可能能达到一定程度上这样的效果,但具体的很纯正的ID保持这个我们还在努力。好的,谢谢黄老师的精彩解答,那接下来请新月老师来为我们回答线上朋友的问题,那首先第一个问题是视频转译是怎样实现中文视频变成英文视频的呢?那新宇老师刚刚有讲到一些效果,可以再给我们介绍一下实现的过程吗?嗯。嗯嗯,其实视频转移的这个实验过程是一个挺复杂的,我们大概会分成音轨的处理和视频轨道的处理,那音轨处理的话,我们会把这个音轨从视频当中把音轨分离出来之后呢,会先做一个声伴分离,就是把声音和背景音乐做一个分离,那声音这块儿的话,我们会通过AR,然后呢,呃,识别出对应的这个文本信息,然后再做个文本翻译,那接下来我们会通过我们的TDS大模型,就是对我这个声音做一个快速的复刻,然后通过这个快速复刻的这个音色呢,我再做这个TPS的推理,再生成我的英文的音频,然后这个时候呢,我再加上刚刚分离出来的音,呃,声伴分离出来的这个背景音,然后最后就会有一个声音的这个轨道出来了,然后视频轨道这块的话,我们会呃,对分离出来的视频做这个视频的口琴驱动,然后驱动之后的话,那就会觉得我正在说这段的这段的呃,这个英文的音频那。
85:58
驱动之后的画面,加上刚刚的处理完成的应急轨道的文件,那最终我们会合成这样的一个,呃,翻译之后或者是转移之后的视频文件,嗯。
86:09
然后接下来的话,这块儿我们还会有一些其他的一些特点,特呃特性啊,比如说我们会把原视频的字幕做一个擦呃擦除的一个处理,这些新动性都会在呃,未来大家可以期待一下,对。在未来一两个月之后会上线之内,嗯。好的,嗯,那我们朋友还想了解一下,现在我们生成的视频可以支持到多少秒。嗯,秦老师,还是请您来帮我们回答一下。嗯,好的,就是目前的我们的文声视频的话,大概是可以支持到4秒钟,然后同时的话,我们现在正在做的是一个对比骚A的一个新的能力,那这样生成视频的时长的话,可能就会到几十秒钟,然后这块大家其实可以期待一下,然后我们大概会在呃驱逐3左右的这个效果就会有一有一个版本的效果可以啊提供出来对外去做一个演示,然后呢,除了完成视频之外,刚才我们提到那些能力,像视频转移,它其实不限市场。
87:16
那或者说我们定义了一个最大的时长是5分钟,还有视频风格化,其实也是不限时长的。好的,明白了,嗯,那下一个问题,视频转移可以在哪里去体验呢?呃,我们现在的这个腾讯云的,呃,大模型视频创作引擎的控制台,现在正在做这个最后的测试,呃,那预计我们会在下周就可以让大家在我们的控制台上去体验视频转移的能力。好的,那最后一个问题给到新云老师,请问老师文本视频中的旁白也可以生成,也可以AI生成吗?旁白的话,我觉得这是一个系统性的一个内容,那如果我们在文声视频的时候已经呃有一些对应的脚本,可以通过TPS的方式去生成这个对白旁白,然后或者是我们可以基于这个文声文,基于文身文这个能力哈,除了这个输入的文本去做这个视频生成之外,我们可以可以做一些旁白的一些生成,那基于文声文生成出来的这些旁白,我们再通过TTS去生成它的旁白声音,那这个这个问题,我觉得除了生成旁白之外的话,其实生成它的音效。
88:30
生成这个视频的音效,或者是这个视频的背景,呃,背景的这个曲子也是一个很重要的东西,所以这块的话,其实后续我们都是可以支付的。好的,那我们本次问答环节到这儿就结束了,再一次感谢三位老师带来的精彩回答和分享,那我们的腾讯云混源大模型啊,通过腾讯云面向企业和个人的开发者已经全面开放了,目前呢提供有PRO standard light三个版本,大家呢可以根据不同业务的需求按需选择好了,我们的时间过得很快,本期的活动啊也进入到了尾声,再次感谢所有朋友对我们的参与和关注,我们下一期活动再见。
我来说两句