
论文链接:https://arxiv.org/pdf/2509.25182 Git链接:https://github.com/dc-ai-projects/DC-VideoGen
亮点直击

由于隐空间token数量庞大,使用视频扩散模型生成高分辨率或长视频在计算上是昂贵的。此外,过高的预训练成本使得开发新的视频扩散模型既具有挑战性又风险较大。
本文从两个互补的角度解决这些挑战(下图2,左)。首先,本文通过深度压缩视频自动编码器大幅减少token数量。其次,本文引入了一种成本高效的后训练策略,以适应预训练模型到新的自动编码器。这种方法显著降低了风险、训练成本以及对大型高质量数据集的依赖。如下图2(右)所示,将本文的后训练策略应用于Wan-2.1-14B仅需10个H100 GPU天——仅为MovieGen-30B训练成本的0.05%。

本文使用 来表示视频自动编码器的配置。例如, 表示将大小为 的输入视频压缩为大小为 的隐空间。
压缩比定义为:

在相同的重建质量下,通常优先选择更高的压缩比。本文称使用 自动编码器的扩散模型为“ 模型”。
一个视频扩散模型通常由一个单层的patch嵌入器(将隐空间映射到嵌入空间)、变压器块和一个将输出投射回隐空间的输出头组成(下图7c)。patch嵌入器包含一个称为patch大小的超参数 ,它进一步将隐空间在空间上压缩了一个 倍的因子。如[23]所示,在相同的总压缩比下,将更多的空间压缩分配给自动编码器而不是patch嵌入器能够产生更好的生成结果。

现有的视频自动编码器可以根据其时间建模设计分为两类:因果和非因果。



本文引入了一种新的时间建模设计,称为chunk因果,以克服这些限制(上图4c)。其关键思想是将输入视频分割为固定大小的块,其中块大小被视为一个独立的超参数。在每个块内,本文应用双向时间建模以充分利用帧之间的冗余。然而,在块之间,本文强制因果流动,以便模型能够在推理时有效推广到更长的视频。上图5展示了关于块大小的消融研究。本文观察到增加块大小可以持续提高重建质量。在本文的最终设计中,本文采用了块大小为40,因为在此点之后的收益趋于平稳,而训练成本继续上升。
视频重建结果。 本文在下表1中总结了DC-AE-V与之前最先进的视频自动编码器的比较。与因果视频自动编码器(如LTX Video VAE [24])相比,DC-AE-V在相同压缩比下实现了更高的重建精度,并且在给定精度目标下实现了更高的压缩比。与非因果视频自动编码器(如Video DC-AE [25])相比,DC-AE-V在相同压缩比下提供了更好的重建质量,同时在推广到更长视频方面表现更佳(上图3)。

视频生成结果。 除了重建性能外,本文还评估了DC-AE-V在视频生成方面相对于之前自动编码器的表现。下表2展示了在Wan-2.1-1.3B [5]上的消融结果,显示DC-AE-V达到了最佳的视频生成性能。与基础模型相比,DC-AE-V-f64t4c128提供了22倍的加速,同时获得了略高的VBench分数。

如前文所述,patch嵌入器和输出头本质上与隐空间表示紧密相关,因此在更换自动编码器时无法直接移植。因此,一种将预训练的视频扩散模型适配到新自动编码器的简单方法是保留预训练的DiT块,同时随机初始化patch嵌入器和输出头(上图7c,右)。这种策略在[25]中进行了探索,结果不尽如人意。
本文在本文的设置中评估了这种方法,观察到类似的结果。如下图6a(绿色虚线)所示,它未能达到基础模型的语义得分。此外,本文观察到训练不稳定性:模型的输出在20K训练步骤后退化为随机噪声(下图6b,顶部)。本文推测这种不稳定性源于新的隐空间和随机初始化的patch嵌入器引入的显著嵌入空间差距,这阻止了模型有效保留来自预训练DiT权重的知识。

为了解决这一挑战,本文在端到端微调之前引入了一个视频嵌入空间对齐阶段,以弥合嵌入空间之间的差距,并在适应新的隐空间的同时保留预训练模型的知识。
AE-Adapt-V 阶段1:视频嵌入空间对齐。 上图7b展示了本文视频嵌入空间对齐的一般概念,其中本文首先对齐patch嵌入器,然后对齐输出头。
对于patch嵌入器对齐,本文冻结基础模型的patch嵌入器,并训练一个新的patch嵌入器,将新隐空间映射到嵌入空间。目标是最小化基础模型的嵌入与新patch嵌入器生成的嵌入之间的距离。形式上,设基础模型的嵌入表示为,其形状为,新模型的嵌入表示为,其形状为,其中是嵌入通道维度,在本文的设置中,,。本文首先使用平均池化对进行空间下采样以匹配的形状,结果记为。然后随机初始化的patch嵌入器被训练以最小化以下损失函数:

通过对齐的patch嵌入器,输出头随后通过与patch嵌入器联合微调来对齐,使用扩散损失,同时保持DiT块冻结。这个过程在扩散损失收敛后停止,在本文的实验中最多需要4000步。
上图7a展示了本文的视频嵌入空间对齐的视觉效果。使用对齐的patch嵌入器和输出头,本文可以在不更新DiT块的情况下,在新的隐空间中恢复基础模型的知识和语义。下图11提供了额外的消融研究,显示对齐patch嵌入器在视频嵌入空间对齐中起到了最关键的作用,而对齐输出头进一步提升了质量。

AE-Adapt-V 阶段2:使用LoRA进行端到端微调。 仅靠视频嵌入空间对齐无法完全匹配基础模型的质量。为缩小这一差距,本文执行端到端微调。由于阶段1提供了强大的初始化,本文在此阶段采用LoRA [51]微调。
下图8比较了LoRA微调与完全微调。本文发现LoRA不仅通过减少可训练参数降低了训练成本,还比完全微调获得了更高的VBench分数和更好的视觉质量。本文推测这是因为LoRA更好地保留了基础模型的知识。

DC-VideoGen可以应用于任何预训练的视频扩散模型。在本文的实验中,本文对两种代表性的视频生成任务进行了评估:文本到视频(T2V)和图像到视频(I2V)生成。本文使用预训练的Wan-2.1模型 [5]作为基础模型,并将生成的加速模型记为DC-VideoGen-Wan-2.1。
Wan-2.1-I2V模型通过将图像条件与隐空间变量连接来结合图像条件。由于Wan-2.1-VAE和DC-AE-V采用不同的时间建模设计(因果与块状因果),DC-VideoGen-Wan-2.1 I2V模型不能直接采用与前文相同的方法。为了解决这一问题,本文将给定的图像条件复制四次并附加空白帧以形成与视频形状匹配的块。然后本文用DC-AE-V对这些块进行编码,并将生成的特征与隐空间变量连接,随后可以以与Wan-2.1-I2V相同的方式进行处理。
实现细节。 本文使用PyTorch 2 [52]在16个NVIDIA H100 GPU上实现并训练所有模型。采用了三个预训练的视频扩散模型:Wan-2.1-T2V-1.3B、Wan-2.1-T2V-14B和Wan-2.1-I2V-14B,每个模型都从原始的Wan-2.1-VAE适配到本文的DC-AE-V。为了训练,本文使用Wan-2.1-T2V-14B收集了257K个合成视频,并将它们与从Pexels中选择的160K个高分辨率视频结合。详细的训练超参数在表8中提供。
效率测试平台。 本文在单个H100 GPU上使用TensorRT2对所有模型的推理延迟进行基准测试。为简化起见,本文专注于transformer主干,因为它构成了主要的效率瓶颈。
评估指标。 按照常规做法,本文使用VBench [53]评估文本到视频(T2V)扩散模型,并使用VBench 2.0 [54]评估图像到视频(I2V)扩散模型。此外,本文还提供了由本文的模型生成的视觉结果。
下表3在720×1280分辨率下比较了DC-VideoGen与领先的T2V扩散模型在VBench上的表现。本文遵循VBench团队提供的扩展提示集,并在相同分辨率下进行所有实验以确保公平的对比。

与基础的Wan-2.1模型相比,DC-VideoGen-Wan-2.1在效率显著提高的同时获得了更高的分数。例如,DC-VideoGen-Wan-2.1-14B将延迟减少了7.7倍,并将VBench分数从83.73提高到84.83。与其他T2V扩散模型相比,DC-VideoGen-Wan-2.1在获得最高VBench分数的同时也实现了最低的延迟。
下表4报告了本文在720×1280分辨率下的VBench I2V结果。与T2V的发现一致,DC-VideoGen-Wan-2.1-14B通过获得更高的VBench分数并将延迟减少7.6倍,优于基础的Wan-2.1-14B。ƒ

与其他I2V扩散模型相比,DC-VideoGen-Wan-2.1-14B提供了具有极高竞争力的结果,并且效率卓越,比MAGI-1快5.8倍,比HunyuanVideo-I2V快8.3倍。
本文介绍了DC-VideoGen,这是一种后训练框架,通过结合深度压缩视频自动编码器和高效的适应策略来加速视频扩散模型。DC-VideoGen在推理速度上实现了高达14.8倍的提升,并大幅降低了训练成本,同时保持甚至提升了视频质量。这些发现表明,视频生成中的效率和保真度可以共同进步,使大规模视频合成在研究和实际应用中变得更加实用和可及。
[1] DC-VideoGen: Efficient Video Generation with Deep Compression Video Autoencoder
这是一个👉️完全免费👈️的高质量AIGC技术社群。
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。