国内首款视频垂直大模型上线

文章来源：企鹅号 - 北京日报客户端

北京日报客户端 | 记者袁璐

AIGC（生成式人工智能）正慢慢从概念宣讲走向实战区。7月27日，新壹科技发布国内首款视频垂直大模型，释放AIGC的视频生产力。据介绍，该大模型是以视频生成为核心的多模态AIGC模型。基于深度学习海量视频样本，拥有从脚本生成、素材匹配、智能剪辑配音到数字人播报的AI全流程视频生产能力，从而让普通人能高质量、高效率、低成本、无门槛视频创作。

在传统模式下，内容创作需要大量的人力和成本。通过AIGC技术的应用，视频创作者可以大大降低生产门槛，减少工序性的人工消耗，减小工具和技术层面的差异，从而获得更多的创作自由。

具体来看，这一大模型具备多模态感知、实时学习、自迭代及多场景交叉推理的核心能力。能够处理多模态的输入信息，可以理解文字的含义，识别图像的内容，感知音乐的情绪，基于对内容深度准确的理解，生成视频。同时，在自监督学习方案下，这一大模型会观察和学习大量的视频数据，通过分析视频的结构、内容、风格等多个维度，自我理解和把握视频制作的规则和逻辑，完成视频制作任务。

此外，该大模型能跨场景进行知识迁移与关联，选择合适素材，调整视频风格，并面向行业级的垂直场景对大模型做定向训练，以提供更加精准、专业的服务，满足行业多样化需求。

秒创是基于上述视频大模型的智能AI内容生成平台。在现场，新壹科技创始人、董事长韩坤演示了秒创视频创作平台的操作全过程。通过这一平台，创作者可以把一篇文章甚至是一个想法快速地制作为视频，5分钟即可从文案到视频成品。该平台提供图片生成、视频生成、声音生成、数字人生成等AIGC功能外，还提供了一个千万级的结构化视频库位用户提供精准匹配。据悉，秒创试运营半年多以来，已经积累了200多万的用户，每天产出超过10万分钟视频。

该公司基于视频大模型的数字人平台也同日投入使用。通过多模态合成AI技术，该平台可以将真人录制的视频和音频素材，快速生成2D写实数字人。基于视频大模型，该平台在24小时内即可完成一个数字人的训练。通过融合通用语言模型、音视频生成技术，能够快速、低成本的生成真人播报视频和直播，极大降低了真人出镜门槛。

记者了解到，数字人主播呈现出来的效果代表着非常典型的AIGC能力，有表情、动作的驱动，这种驱动本质上就是从输入的文字信息去生成图片信息的方式。这其中也包括剧本创作，创作者甚至不需要向数字人提供文案，只用告诉几个关键词，它就能以剧本创作的方式输出内容。

“目前，数字人行业已经进入了稳定的增长期。我们预计今年中国将至少新增100万个数字人。”韩坤表示，未来，随着元宇宙在产品技术端的突破以及在需求端的释放，数字人将正式迎来爆发式增长。

探索运用AIGC助视频创作者生产力爆发，正成为当下行业一大流行趋势。记者注意到，除了专门的垂直大模型外，各互联网大厂也在试水AI生成数字人、智能音乐以及短视频等。今年5月，芒果TV声称自研的AIGC已可实现批量生产，剪辑基于用户兴趣的单个艺人镜头片段集锦；今年7月，国内首条短视频AIGC流水线正式上线，试图构建媒体行业语言模型，探索文稿到短视频成品的智能快速生成。

发表于: 2023-07-272023-07-27 21:30:22
原文链接：https://page.om.qq.com/page/OhIrb7vkCW0dDUMJ4t4lTifA0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

国内首款视频垂直大模型上线

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐