全面对标Sora！中国首个Sora级视频大模型Vidu亮相

原创

存内计算开发者

发布于 2024-05-14 16:48:40

3290

发布于 2024-05-14 16:48:40

2024年4月27日，在中关村论坛未来人工智能先锋论坛上，生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu[1]。本文将对标Sora大模型、国产“类Sora”大模型等，详细介绍新兴国产大模型Vidu的背景、成果、架构等相关知识。

一.对标Sora，国产视频大模型Vidu亮相

（1）Vidu发布背景

Vidu是中国首个国产自研的视频大模型。Vidu的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术U-ViT架构由团队于2022年9月提出，是全球首个Diffusion与Transformer融合的架构，完全由团队自主研发，这一架构提出3个月后，Sora采用的同源基础架构DiT的论文才发表。2023年3月，团队开源全球首个基于U-ViT架构的多模态扩散大模型UniDiffuser，在架构上，UniDiffuser比同样DiT架构的Stable Diffusion 3领先了一年。

2024年1月，Vidu团队已实现4秒视频的生成。2024年2月Sora的发布极大地刺激了Vidu团队的研发，Vidu团队3月将视频时长突破8秒，4月突破16秒，短短两个月实现了长视频表示与处理关键技术的突破，取得了今天的效果。团队基于对U-ViT架构的深入理解以及长期积累的工程与数据经验，在短短两个月进一步突破长视频表示与处理关键技术，研发推出Vidu视频大模型，显著提升视频的连贯性与动态性。

（2）Vidu对标Sora的数据及成果

Vidu支持一键生成长达16秒、分辨率高达1080p的高清视频内容。从官宣的短片来看，Vidu在多镜头生成、时间和空间一致性、模拟真实物理世界以及想象力等方面，几乎与Sora齐平，甚至超越Sora，下面简要分析Vidu对标Sora的数据及成果。

首先，在时长方面，Vidu和Sora均支持生成长达16秒的高质量视频。

然后，在视频效果方面，Vidu实现了显著提升，下面简要说明：

①模拟真实物理世界：Vidu能够生成细节复杂的场景，且符合真实的物理规律，例如合理的光影效果、细腻的人物表情等；

②具有丰富想象力：Vidu能够生成真实世界不存在的虚构画面，创造出具有深度和复杂性的超现实主义内容，例如“画室里的一艘船正在海浪中驶向镜头”这样的场景；

③多镜头语言：Vidu能够生成复杂的动态镜头，不再局限于简单的推、拉、移等固定镜头，而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换，包括能直接生成长镜头、追焦、转场等效果，给视频注入镜头语言；

④时空一致性高：Vidu生成的视频能够在16秒的时长上保持连贯流畅，随着镜头的移动，人物和场景在时间、空间中能够保持一致；

⑤理解中国元素：Vidu能够理解并生成特有的中国元素，例如熊猫、龙等特有的中国元素。

此外，Vidu采用的是“一步到位”的生成方式，与Sora一样，文本到视频的转换是直接且连续的，在底层算法实现上是基于单一模型完全端到端生成，不涉及中间的插帧和其他多步骤的处理。

综上所示，Vidu对标于Sora，在诸多方面性能实现平齐，甚至超越Sora，具有极大的应用价值与研究意义，下面我们将结合其他国产“类Sora”大模型，进一步分析Vidu优势。

二.相比国产“类Sora”模型，Vidu优势凸显

Vidu大模型令人惊叹的，是其视频生成时长、对物理规律的呈现以及真实世界逻辑的展现较真实。相较于其他国产大模型只能生成2s到4s的视频内容，Vidu最高可生成生成约16s稳定的视频内容。画面时间长、稳定性强，意味着Vidu在训练阶段获取了更多的“有用”数据，即模型能从数据中提取到更符合现实的特征；并且Vidu所用模型的注意力机制性能更佳，能够正确地联系起上下帧之间的内容。通常的视频大模型，会先生成关键帧，再通过插帧的方式将多个关键帧连成视频的做法实现，本质上是在大模型图片生成基础上做的优化；更进一步的视频大模型，会提取画面中的关键信息，按照关键信息的联系，逐帧生成连续的画面内容，可以理解为一种更高级的插帧。

在插帧的步骤中，模型不知道两帧之间的内容如何连接，只是采用了类似于PPT中“平滑”的效果将线条和内容进行移动。例如Pixeling模型以“一只柯基犬在热带毛伊岛拍摄自己的Vlog”为关键词生成的视频中[4]，在关键帧的位置，我们可以看到清晰完整的柴犬形象，但是在插帧内容中，柴犬已经发生了严重的形变。

相比之下，Vidu生成的画面，能正确串联帧间的内容，是连续稳定的画面

图10 Vidu宣传片中连续三张截图图像

同时，Vidu生成的“真实”风格画面也远超其他国产视频大模型。其他国产视频大模型生成的画面“动画感”较强，以动物类模型，用“一个培养皿，里面长着一片竹林，里面有小熊猫在跑来跑去”作为关键词生成视频[4]，可以看到字节和腾讯的大模型生成的视频中，小熊猫和环境的动画风格强烈。

图11 字节艺映AI和腾讯VideoCrafter2生成的动物类视频内容

而Vidu生成的动物类视频，从环境到主体的大熊猫都具备更强的真实感，熊猫弹吉他的行为除外。

Vidu能取得如此优秀的成就，依赖于清华团队自研的U-ViT模型。视频大模型的技术路线分为两种，一种是扩散模型（Diffusion），一种是Transformer。扩散模型是一种生成模型，其核心思想是通过多步骤的迭代过程来逐渐改进模型对数据的估计。在视频处理中，扩散模型可以用于生成视频内容，改进视频质量或执行其他生成任务。但是其生成视频类内容的连续性、稳定性较弱，不具备连续内容关联能力。Transformer是一种基于自注意力机制的神经网络架构，广泛用于处理序列数据，如文本、语音和图像。它能够捕获序列数据中的长距离依赖关系，适用于各种任务，包括自然语言处理、计算机视觉等。其优势在于内容的关联性，但是需要更多的数据和训练。U-ViT模型是一种结合扩散模型和Transformer模型优势的模型架构，利用“扩散”生成图像内容，利用Transformer保持画面内容的关联性[5]，Sora使用的模型也是类似的架构。也因此，Vidu、Sora生成的画面才会较为连续、可靠。

但是利用Transformer保持画面连续性不能保证模型理解或能完全现实世界的物理规律，大多依赖其从训练数据中学到的经验。Vidu宣传片中小熊行走部分（BV1ED421n7qn，1:32处）出现了熊在地面走“太空步”的情形，并且脚部附近地面光影会随着腿的移动出现细小的调整。也就是说，Vidu理解的是，当人物主体在走路时，人在往前走，路在往后退，但它并不理解二者的相对运动应该符合什么样的规律，从训练数据中获取的经验也不够充分，才得到了这样的画面。不过，该问题是所有扩散Transformer模型面临的共性问题，Sora同样存在[6]。

三.清华系团队自研——U-ViT融合架构

所谓U-ViT融合架构，是Diffusion Models（扩散模型）与Transformer的融合。Transformer架构在众多大语言模型中被广泛使用，在此不再赘述；而Diffusion Models（扩散模型）被常用于传统视觉任务（图像和视频生成）中，在此我们进行简要介绍。

Diffusion Models是生成模型的一种，横向对比最近较火的几个生成模型GAN、VAE、Flow-based Models、Diffusion Models，扩散模型是通过逐步增加高斯噪声将其变为纯高斯噪声，再通过对纯高斯噪声逐步去噪生成新的图像。

直观来讲，扩散模型由正向过程（扩散过程）和反向过程（逆扩散过程）组成，其中输入数据逐渐被噪声化，然后噪声被转换回源目标分布的样本[7]。

正向过程：不断地往输入数据中加入噪声，直到其就变成纯高斯噪声，每个时刻都要给图像叠加一部分高斯噪声。其中后一时刻是前一时刻增加噪声得到的。

反向过程：由一个纯高斯噪声出发，逐步地去除噪声，得到一个满足训练数据分布的图片。

这样下来，训练完毕后，只需要从标准正态分布里随机采样出一个随机噪声，再利用反向过程里的神经网络把该噪声恢复成一副图像，就能够生成一副图片了。

而Vidu采用的融合架构——U-ViT就是在Diffusion Models中，用Transformer替换常用的U-Net卷积网络，将 Transformer 的可扩展性与 Diffusion 模型处理视觉数据的天然优势进行融合，能在视觉任务下展现出卓越的涌现能力。

Vidu团队于2022年9月提出U-ViT架构，早于Sora采用的DiT架构，是全球首个Diffusion与Transformer融合的架构，完全由团队自行研发。2023年3月，团队开源全球首个基于U-ViT架构的多模态扩散大模型UniDiffuser，在全球范围内率先完成融合架构的大规模可扩展性（Scaling Law）验证。UniDiffuser是在大规模图文数据集LAION-5B上训练出的近10亿参数量模型，支持图文模态间的任意生成和转换。在架构上，UniDiffuser比同样DiT架构的Stable Diffusion 3领先了一年[8]。

基于对U-ViT架构的深入理解以及长期积累的工程与数据经验，自今年2月Sora发布之后，团队在短短两个月里进一步突破了长视频表示与处理的多项关键技术，研发了Vidu视频大模型，显著提升视频的连贯性和动态性。从图文任务的统一到融合视频能力，作为通用视觉模型，Vidu能够支持生成更加多样化、更长时长的视频内容，同时面向未来，灵活架构也将能够兼容更广泛的模态，进一步拓展多模态通用能力的边界。

Sora发布之后，国内一片惊叹，又是一片哀嚎。“红衣教主”周鸿祎说，Sora将人类实现通用人工智能的时间从10年缩小到了1-2年，同时也进一步拉大了中美在AI领域的差距[9]。Vidu的发布，让中国大模型领域看到了更新的希望，也给足了发展的动力，相信Vidu的发布，只是中国大模型取得突破的一个开始。

参考资料：

[1]https://mp.weixin.qq.com/s/HcIgiyj6hJwZTNL34Z73Uw.

[2]中国新闻网视频，对标Sora 首个国产自研视频大模型Vidu发布.

[3]https://www.thepaper.cn/newsDetail_forward_27195054.

[4]全网首个“中国版Sora”横评，15家企业对决，字节领跑-智东西（thepaper.cn）.

[5] U-ViT: A ViT Backbone for Diffusion Models（zhihu.com）.

[6] Sora真能理解什么是吃意大利面吗？-差评君（bilibili.com）.

[7]扩散模型介绍&原理&应用(CSDN).

[8]国产 Sora 的秘密，藏在这个清华系大模型团队中-极客公园.

[9]中国挑战者来了！Vidu横空出世：文生视频能力比肩Sora？-雷科技.

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。