作者:Zhiheng Liu等
解读:AI生成未来

项目链接:https://tuna-ai.org/ 文章链接:https://arxiv.org/pdf/2512.02014 Huggingface: https://huggingface.co/papers/2512.02014
亮点直击


图1 展示了Tuna,这是一个基于统一视觉表示的原生统一多模态模型,支持多样的多模态理解与生成能力,如图像和视频理解、图像与视频生成以及图像编辑。
本节介绍 Tuna,这是一种原生的统一多模态模型,在所有多模态理解和生成任务中采用统一的视觉表示。首先概述模型设计的关键动机,随后详细描述 Tuna 的架构和训练流程。整体框架概览如下图 2 所示。

基于这些观察,Tuna 的设计具有以下关键特征:
统一视觉表示如前面图 2 所示,Tuna 使用一个 VAE 编码器和一个表示编码器来构建其统一视觉表示。给定输入图像或视频 ,应用 Wan 2.2 中的 3D 因果 VAE 编码器,该编码器在空间上进行 下采样,在时间上进行 下采样,产生隐空间变量 。然后,生成一个噪声隐空间变量 ,其中 是采样的时间步,。
接着,使用 SigLIP 2 视觉编码器 (Patch 大小为 16,预训练分辨率为 512)从 VAE 隐空间变量中提取语义特征。由于 VAE 编码器具有 下采样,本工作将 SigLIP 2 原始的 Patch 嵌入层替换为随机初始化的 Patch 嵌入层,形成修改后的编码器 。这确保了 和 的 Token 序列长度一致。最后,应用一个两层的 MLP 连接器来获得统一视觉表示 。在训练期间,对于视觉生成任务,在 之间随机采样 ;对于多模态理解任务,固定 ,使得 始终对应于干净的隐空间变量。
对于视频输入,其中 ( 为批次大小, 为潜在帧数, 分别为通道、高度和宽度),为了防止表示编码器 处理过长的序列,本工作没有将所有潜在帧展平为单个序列,而是通过将帧维度重塑(reshape)到批次维度中来应用基于窗口的注意力机制。使用 einops 符号,统一视觉表示 可以表示为:
其中 是视频 Token 的隐藏维度。此操作有效地允许 独立地在每个 4 帧窗口上操作,从而显著提高了处理视频 Token 时的效率。
LLM 解码器和流匹配头
在获得统一视觉表示 后,在其前面添加一个表示采样时间步 的时间步 Token,将此视觉 Token 序列与语言 Token 拼接,并将组合后的序列输入到 LLM 解码器(Qwen-2.5)中进行联合多模态处理。遵循标准 UMM 实践,如图 3 所示,在 LLM 解码器层内对语言 Token 应用因果注意力掩码(causal attention mask),对视觉 Token 应用双向注意力掩码(bidirectional attention mask)。
对于多模态理解任务,LLM 解码器的输出通过语言建模头(language modeling head)以生成文本 Token 预测。对于视觉生成和图像编辑,将完整的 Token 序列输入到一个随机初始化的流匹配头(flow matching head)以预测流匹配的速度(velocity)。该头共享 LLM 解码器架构,并通过 AdaLN-Zero 添加时间步条件,遵循 Show-o2 和 DiT 的做法。对于生成和编辑任务,在拼接的文本-视觉序列上采用多模态 3D-RoPE,以处理交错的指令和视觉内容。
为了有效地训练该统一模型,本工作采用三阶段训练策略,逐步使每个模型组件适应理解和生成任务。
第一阶段:统一表示和流匹配头预训练
在第一个训练阶段,目标是调整语义表示编码器以生成统一视觉表示,并为流匹配头建立稳健的初始化。为此,在冻结 LLM 解码器的同时训练表示编码器和流匹配头,使用两个目标:图像描述(image captioning)和文本到图像生成。
图像描述目标与强语义编码器(如 SigLIP 2 和 Qwen2.5-VL 视觉编码器)的预训练目标一致。图像描述已被证明可以提供与对比学习相当的语义丰富性,从而增强统一表示的视觉理解能力。同时,文本到图像生成目标训练流匹配头从文本条件生成图像,为后续的图像编辑和文本到视频生成任务奠定基础。此外,该目标允许生成梯度反向传播到表示编码器,进一步使统一视觉表示与理解和生成任务对齐。
第二阶段:全模型持续预训练
在第二个训练阶段,解冻 LLM 解码器,并使用与第一阶段相同的图像描述和文本到图像生成目标对整个模型进行预训练。在第二阶段的后期训练步骤中,进一步引入图像指令跟随(image instruction-following)、图像编辑和视频描述数据集,以扩展模型的能力。这一阶段使 Tuna 能够执行更复杂的多模态推理和生成任务,弥合了基本视觉-文本对齐与更高级的指令驱动的多模态理解和生成之间的差距。
第三阶段:监督微调 (SFT)最后,在第三阶段,使用图像编辑、图像/视频指令跟随和高质量图像/视频生成数据集的组合进行监督微调(SFT),并使用降低的学习率进行训练。这一阶段进一步细化了 Tuna 的能力,提高了其在不同多模态理解和生成任务中的性能和泛化能力。
本部分对 Tuna 在各类多模态任务上的性能进行了全面评估。
Tuna 基于两个不同规模的 LLM 构建:Qwen2.5-1.5B-Instruct 和 Qwen2.5-7B-Instruct。训练过程分为三个阶段,涉及从表示编码器、投影层到全模型的优化。使用了包括图像描述、文本生成图像、图像编辑及视频相关的数据集。
图像理解本工作在 MME、GQA、MMMU 等 9 个基准上评估了 Tuna。如下表 1所示,无论是 1.5B 还是 7B 版本,Tuna 几乎在所有基准测试中都达到了最先进(SOTA)的结果。Tuna 不仅与纯理解模型相比具有竞争力,而且优于许多复合型 UMM 和更大规模的 UMM,证明了统一表示的有效性。

图像生成在 GenEval、DPG-Bench 和 OneIG-Bench 三个基准上评估了 Tuna。结果如下表 2和下表 3所示。Tuna 始终优于包括 Janus-Pro、BAGEL 和 Mogao 在内的现有方法。特别是在 OneIG-Bench 中,Tuna 在文本渲染质量方面表现出显著优势,这表明其在处理包含视觉文本信息的复杂指令时具有强大的语义理解能力。


图像编辑使用 ImgEdit-Bench 和 GEdit-Bench 进行评估。如下表 4所示,Tuna 在 ImgEdit-Bench 上取得了 4.31 的总分,在所有 UMM 中排名最高,且与 FLUX.1 等纯生成模型相当。在 GEdit-Bench 上,Tuna 在所有统一模型中得分最高。下图 7 展示了定性结果,Tuna 能够准确执行风格迁移、环境更改和对象替换等操作。


视频理解在 MVBench、Video-MME 等四个视频基准上的评估结果如下表 5所示。Tuna 在 MVBench 和 Video-MME 上优于 Show-o2,并在其他基准上表现出竞争力。即使是 1.5B 参数的模型,其性能也能与更大的纯理解模型相媲美。

视频生成在 VBench 上的评估结果如下表 6所示,Tuna 实现了 SOTA 性能,超越了所有现有的具备视频生成能力的 UMM,同时仅使用了 1.5B 参数的 LLM 解码器。定性结果如下图 8所示,展示了 Tuna 生成高保真视频的能力。


本工作通过一系列消融实验(如下表7所示)验证了架构和训练策略的有效性:

通过 CKNNA 分数分析(如下图 5所示),本工作发现 Show-o2 的特征严重偏向语义理解,而与生成模型的特征相关性较弱。相比之下,Tuna 的统一表示与 SD3-Medium(强生成模型)的中间特征具有更高的一致性,表明 Tuna 学习到了更平衡的、适用于理解和生成的统一表示。

下图 6展示了 Tuna 在图像生成上的优势,特别是在组合性生成和文本渲染方面(例如正确拼写单词、按指示放置物体)。相比之下,其他模型经常出现拼写错误或物体遗漏。

Tuna,一种原生的统一多模态模型,它通过级联 VAE 编码器和表示编码器构建了统一的视觉表示空间。本工作在此统一表示的基础上训练了一个 LLM 解码器和一个流匹配头,在图像和视频理解、图像和视频生成以及图像编辑方面均取得了强大的性能。
Tuna不仅超越了之前的 UMM 基线模型,而且与领先的纯理解和纯生成模型相比也具有竞争力。消融研究进一步表明:(1) Tuna 的统一表示空间优于 Show-o2 风格的统一表示和解耦表示设计;(2) 在该框架内,更强的预训练表示编码器始终能带来更好的性能;(3) 这种统一视觉表示设计实现了理解和生成之间的相互增强。
[1] Tuna: Taming Unified Visual Representations for Native Unified Multimodal Models