首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

腾讯杀疯了!开源超大混元视频生成模型

前段时间腾讯开源了应该是当前最大的 MoE LLM 和强大的 3D 生成模型,本来以为已经够强了,没想到全线开花,今天又会发布了混元视频生成相关模型。

我已经测试了一段时间混元视频生成模型整体效果非常厉害,在美学表现、稳定性、运动幅度的品质上都是一流的,重要的是这个级别的模型还是开源的,直接把一堆二线模型杀穿了,非常期待更多的社区玩法和内容。

今天的主要发布内容有:

13B 的开源混元视频生成模型(网页端和 APP)

基于说话音频生成对应的人物说话视频项目(待上线)

端到端的视频自动配音模型(待上线)

面部表情迁移模型(待上线)

模型测试

腾讯这个现在应该是现在最强的开源视频生成模型了,在写实视频领域已经是一流视频生成模型了,可以看看我前段时间跑的一些 Demo。

基本的视频生成模型的要求来看美学表现、画质、运动幅度、稳定性、都很强基本在一流水准。

同时在测试中我也发现了一些非常强的其他特点:

首先是中国风格特色内容的表现非常强,比如下面这个关于古装美女和白鹿的视频,人物的表情动作都非常生动,尤其是衣服,没有 AI 生成的那种多余的结构和离谱花纹。

雪地里,一只长着鹿角、黑色长发和两只大鹿角的白鹿站在一位身着勃艮第汉服的美女身旁。这个场景捕捉到了她与她的宠物相遇的瞬间,创造了一个电影般的构图。该场景由高品质的 SONY 摄像机拍摄,具有真实感,写实风格。

神兽变身,琼枝玉叶,人形终极形态,神兽力量与人类智慧的完美融合,身着华丽精致的古风服饰,绣有虎纹和神秘符文,尽显无与伦比的威严与优雅、 写实摄影风格、奇幻艺术美学、电影级光效、中国怪诞美学、浪漫风光、细腻线条、仙境背景、自然光、8K、精致细节、唯美光效,写实风格

另外的话他们也支持原生的镜头切换能力,而且在切换过程中可以保证画面主体的一致性,比如下面这例子中的金字塔以及人物的装扮角色,以及舞狮的狮子。

一位身着黑色极简长袍的神秘人物,长袍随寒风轻轻飘动,脚印深深陷入白雪之中,四周是广袤的雪原和遥远的冰雪覆盖岩石山脉,中央矗立着一座巨大的黑色金字塔,表面如镜面般光滑反射着周围景色,神秘人物缓步向金字塔走去,呈现超现实主义的科幻风格,庄严而神秘的异世界氛围,镜头缓缓后退升高的动态构图,自然的冷色调光线与金字塔表面的反光交织,远景到全景的渐变展现场景的宏大。

庄严肃穆的狮头面具的空灵特写,饰以繁复的金色和红色点缀,眼神充满古老的智慧,柔和的晚风吹动装饰品飘扬,村庄广场被节日的灯光照亮,远处的烟花描绘着夜空,4K 分辨率,丰富的纹理,高动态范围 (HDR),景深,文化传承,情感氛围,淡出效果,龙的艺术,传统中国水墨画风格,写实风格

另外一个重要特点是腾讯视频模型的整体运动幅度远好于其他视频生成模型,尤其是手部肢体等,比如下面这个滑雪的视频角色换刃非常的流畅。

从侧后方角度拍摄的单板滑雪运动员在新雪中驰骋的特写镜头,远处白雪皑皑的群山清晰可见,背景是壮丽的日落。该场景使用佳能 EOS-1D X Mark III 和 50mm f/1.4 镜头拍摄,在一个阳光明媚的傍晚,雪地上反射着阳光,传达出动感和活力的氛围,色彩鲜艳,对比强烈。

模型技术介绍

HunyuanVideo 应该是目前开源模型中参数最多、性能最强的文生视频大模型。它包含130亿参数。

混元视频模型采用了时空压缩的潜在空间设计,通过因果3D变分自编码器进行压缩。模型使用大语言模型编码文本提示作为条件,并结合高斯噪声作为输入来生成潜在表示,最后通过3D变分自编码器解码器生成图像或视频。

在架构上,混元视频模型采用了双流到单流的混合设计。在双流阶段,视频和文本标记分别通过多个Transformer模块独立处理;在单流阶段,将视频和文本标记连接起来进行多模态信息融合。

模型创新地使用了多模态大语言模型作为文本编码器,这种方式相比传统的CLIP和T5-XXL具有更好的图文对齐效果和复杂推理能力。为了增强文本特征,模型还引入了双向token优化器。

在实现细节上,模型使用了3D变分自编码器来压缩视频空间,并提供了两种提示词重写模式:普通模式侧重准确理解用户意图,大师模式则着重提升视觉质量的描述。

如何使用

你现在可以在网页端和元宝 APP 的 AI 应用-AI 视频位置在线使用混元视频生成模型,目前只支持文生视频、一个月左右会支持图生视频,而且还是免费的。

官网:https://aivideo.hunyuan.tencent.com

代码:https://github.com/Tencent/HunyuanVideo

模型:https://huggingface.co/tencent/HunyuanVideo

技术报告:https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf

其他视频玩法

除了视频生成模型本身混元还演示了一堆其他跟视频相关非常有想象力的其他AI 视频玩法。

首先是通过语音和图片生成完整的面部说话和动作视频,这个演示的强大之处在于这个是全身的,而且背景也在运动,表现力比现有的开源方案强了太多。

然后是视频自动配音项目,可以识别视频画面内容结合提示词为整体画面配音,相当自然和富。

最后是大家都有的面部表情和唇形同步视频迁移模型,看起来也很自然很好。

期待这个几个模型的开源和使用,要是都上线了混元整个视频生成平台就完整了,非常佩服在这个阶段开源大规模模型的团队和公司,训练成本和人员成本真的很高,很幸运在 Meta 拉跨的情况下,腾讯扛起了这个大旗。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OFh6D4YdXByRDvLs0gMuxZvA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券