作者:Jiehui Huang等
解读:AI生成未来

亮点直击

UnityVideo 在单个 Diffusion Transformer 中统一了视频生成和多模态理解。如图 3 所示,该模型通过共享的 DiT 主干网络 处理 RGB 视频 、文本条件 和辅助模态 。在训练过程中,本文动态采样任务类型并应用相应的噪声调度。为了在这个统一架构中处理多种模态,本文引入了上下文学习器 和 模态自适应切换器。通过渐进式课程训练,模型在所有任务和模态上实现了同步收敛。

图 3.UnityVideo 概述。 UnityVideo 通过应用于输入标记的动态噪声注入策略(左)实现任务统一,并通过提出的模态感知 AdaLN 表(中)实现模态统一。 具体来说,和 分别表示 RGB 模态和辅助视频相关模态(例如深度、光流、DensePose、骨架)的可学习参数表。 和 表示 RGB 视频内容和上下文模态学习提示的提示条件,而 和 分别对应于 RGB 和辅助模态的标记序列。
传统的视频生成模型通常孤立地针对特定任务进行训练,限制了它们利用跨任务知识的能力。本文扩展了流匹配(flow matching)框架,以在单一架构中支持三种互补的训练范式。UnityVideo 同时处理三个目标:从辅助模态生成 RGB 视频 (),从 RGB 视频估计辅助模态 (),以及从噪声联合生成两者 ()。 和 token 沿宽度维度拼接,并通过自注意力模块进行交互。遵循文献 [18, 38],本文在 DiT 主干的自注意力中结合了 3D RoPE,以有效区分跨模态的时空位置。
动态任务路由 。为了实现这三种范式的并发优化,本文在训练期间引入了概率任务选择。在每次迭代中,以概率 、 和 (其中 )采样一种任务类型,这决定了在时间步 应用于 RGB 和模态 token 的噪声调度。对于条件生成(如图 3 右侧所示),RGB token 从噪声逐渐去噪 (),而模态 token 保持干净 ()。对于模态估计,RGB token 保持干净,而模态 token 被加噪。对于联合生成,两种类型的 token 都独立地被噪声破坏。本文分配的任务概率与其学习难度成反比:。这种策略防止了顺序阶段式训练中常见的灾难性遗忘,允许模型并发地学习所有三种分布。
不同模态的联合训练可以显著提升单个任务的性能,如图 2 所示。然而,使用共享参数处理不同模态需要显式的机制来区分它们。本文引入了两种互补的设计:用于语义级模态感知的上下文学习器,和用于架构级调制的模态自适应切换器。

图 2.统一模式的培训有利于视频生成。 统一的多模态和多任务联合训练在 RGB 视频生成上实现了最低的最终损失,优于单模态联合训练和 RGB 微调基线。
上下文学习器 。为了利用模型固有的上下文推理能力,本文注入了描述模态类型(例如,“深度图 (depth map)”、“人体骨骼 (human skeleton)”)而非视频内容的模态特定文本提示 。这一设计与描述内容的标题 有根本区别。给定拼接的 RGB token 和模态 token ,本文分别执行双分支交叉注意力: 用于带有内容标题的 RGB 特征,以及 用于带有类型描述的模态特征,然后再将它们重新组合以进行后续处理。这种轻量级机制引入的计算开销可以忽略不计,同时实现了组合泛化。例如,使用短语“两个人”进行训练允许模型在分割任务期间泛化到“两个物体”,因为模型学会了解释模态级的语义,而不是记忆特定内容的模式。详细分析在实验部分提供。
模态自适应切换器 。虽然基于文本的区分提供了语义感知,但随着模态数量的扩展,这种方式可能变得不足。因此,本文为 种模态引入了一个可学习的嵌入列表 ,以实现显式的架构级调制。在每个 DiT 块内,AdaLN-Zero基于时间步嵌入为 RGB 特征生成调制参数(缩放 ,平移 ,门控 )。本文通过学习模态特定参数来扩展这一机制:,其中 是模态嵌入, 是时间步嵌入。这一设计实现了推理过程中的即插即用模态选择。为了进一步减少模态混淆并稳定输出,本文初始化了模态专家输入-输出层,作为每种模态的专用编码和预测头。
多模态课程学习简单地从头开始联合训练所有模态会导致收敛缓慢和性能次优。我们将模态根据其空间对齐属性分为两组。像素对齐模态(光流、深度、DensePose)允许与 RGB 帧建立直接的像素到像素对应关系,而像素非对齐模态(分割掩码、骨骼)则包含更抽象的几何表示且需要额外的视觉渲染步骤。
采用两阶段课程策略:第一阶段(Stage 1) 仅在经过筛选的单人数据上训练 RGB 视频和像素对齐模态,为空间对应关系的学习建立坚实基础。第二阶段(Stage 2) 引入所有模态以及多样化的场景数据集,涵盖以人为中心和通用的场景。这种渐进式策略使得模型能够理解所有五种模态,同时支持对未见模态组合的鲁棒零样本(zero-shot)推理。
OpenUni 数据集我们的训练数据包含 130 万个视频片段,涵盖五种模态:光流、深度、DensePose、骨骼和分割。如图 4 所示,我们从多个来源收集真实世界的视频,并使用预训练模型提取模态标注。数据集包括 370,358 个单人片段、97,468 个双人片段、489,445 个来自 Koala36M的片段,以及 343,558 个来自 OpenS2V 的片段,共计 130 万个样本用于训练。为了防止对特定数据集或模态的过拟合,我们将每个批次(batch)划分为四个平衡的组,确保在所有模态和来源中进行均匀采样。

图4。OpenUni数据集。OpenUni包含130万对统一的多模态数据,旨在丰富视频模态,赋予更全面的世界感知
遵循条件流匹配(Conditional Flow Matching),本文框架采用一种动态训练策略,通过选择性地对不同模态添加噪声,在三种模式之间自适应切换。特定模式的损失函数如下:
其中 和 表示在时间步 的插值潜变量(latents), 和 分别代表 RGB 视频和辅助模态(如光流、深度)。速度场定义为 和 ,其中 是从真实数据编码的纯净潜变量,而 是独立的分布高斯噪声。文本条件 从预训练的文本编码器获得。
公式 (1) 实现了从辅助模态条件生成 RGB 视频,公式 (2) 执行从 RGB 视频进行模态估计,而公式 (3) 则从文本联合生成两种模态。
在训练过程中,批次中的每个样本被随机分配到这三种模式之一,使得所有任务都能在单个优化步骤中贡献梯度。这种统一的公式允许在单个架构内进行无缝的多任务学习。
为了验证 UnityVideo 的有效性,本文在多个基准上进行了广泛的实验。


图5。与不同任务中SOTA方法的比较。UnityVideo展现出更优越的物理推理能力,更好地遵守控制条件,并对辅助模态有更深入的理解。






UnityVideo,这是一个在单一 Diffusion Transformer 中对多种视觉模态和任务进行建模的统一框架。通过利用模态自适应学习,UnityVideo 实现了 RGB 视频与辅助模态(深度、光流、分割、骨骼和 DensePose)之间的双向学习,从而在两类任务上都实现了相互增强。本文的实验展示了其在不同基准上的最先进性能,以及对未见模态组合的强大零样本泛化能力。为了支持这项研究,本文贡献了 OpenUni,这是一个包含 130 万同步样本的大型多模态数据集,以及 UniBench,这是一个带有真值标注的高质量评估基准。UnityVideo 为统一多模态建模铺平了道路,是迈向下一代世界模型的重要一步。
[1] UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation