超越Wan-2.1 和 MatrixGame！Yume1.5：交互式世界生成模型，单卡12 FPS 实时交互渲染

AI生成未来

发布于 2025-12-31 19:04:03

1520

作者：Xiaofeng Mao等

解读：AI生成未来

论文链接：https://arxiv.org/pdf/2512.22096 开源代码：https://github.com/stdstu12/YUME 工程链接：https://stdstu12.github.io/YUME-Project 数据链接：https://github.com/Lixsp11/sekai-codebase

亮点直击

联合时空通道建模（TSCM）：用于无限上下文生成，尽管上下文长度不断增加，该方法仍能保持稳定的采样速度。
将 Self-Forcing 与 TSCM 集成：旨在加速 Yume1.5 的推理过程，同时减少（长序列生成中的）误差累积。
实现了卓越的生成与编辑性能：通过精细的数据集构建和模型架构设计，Yume1.5 在世界生成（World Generation）和编辑（Editing）任务上均取得了优异的表现。

解决的问题

现有的视频生成和世界模拟模型主要面临三大挑战：

通用性有限：大多基于游戏数据训练，难以生成逼真的动态城市场景。
生成延迟高：扩散模型的高计算成本限制了实时连续生成，难以实现流畅的无限探索。
文本控制能力不足：现有方法通常仅支持键盘/鼠标控制，缺乏通过文本指令生成随机事件（如“出现幽灵”）的能力。

提出的方案

Yume1.5 通过三个核心维度的系统优化来解决上述问题：

长视频生成架构：采用联合时空通道建模（TSCM），有效压缩历史上下文。
实时加速策略：结合双向注意力蒸馏（Self-Forcing）与增强的文本嵌入方案，大幅提升推理速度并减少误差积累。
文本控制事件生成：通过混合数据集训练策略和特定的架构设计，实现了基于文本的事件触发。

应用的技术

联合时空通道建模 (TSCM)：针对长视频生成，分别在时空维度和通道维度对历史帧进行压缩，减少显存占用并保持推理速度。
线性注意力 (Linear Attention)：在 DiT 块中处理通道压缩后的特征，提升计算效率。
Self-Forcing 蒸馏：训练模型使用自己生成的（含误差的）历史帧作为条件进行预测，从而提高对推理过程中误差累积的鲁棒性。
双流文本编码：将文本提示分解为“事件描述”和“动作描述”，分别处理以降低计算开销。

达到的效果

性能提升：在 Yume-Bench 基准测试中，指令跟随能力（Instruction Following）得分达到 0.836，显著优于 Wan-2.1 和 MatrixGame。
实时性：在单张 A100 GPU 上，以 540p 分辨率实现了 12 FPS 的生成速度。
长时一致性：通过 TSCM 和 Self-Forcing，模型在长序列生成中保持了更稳定的美学质量和图像质量，避免了传统滑动窗口方法的剧烈衰减。

方法

本文提出了一个综合框架，通过多维度的系统性创新，生成交互式、逼真且时间连贯的视频世界。该方法为联合文本生成视频（Text-to-Video, T2V）和图像生成视频（Image-to-Video, I2V）建立了统一的基础，同时解决了长期一致性和实时性能的关键挑战。核心贡献包括：（1）用于高效长视频生成的联合 TSCM 策略；（2）结合 TSCM 和 Self-Forcing 的实时加速框架；（3）一种交替训练范式，同时实现世界生成和探索能力。总的来说，这些进展促进了适用于复杂现实场景探索的动态交互式环境的创建。

图1。Yume1.5框架支持三种交互式生成模式：从描述生成文本到世界、从静态图像生成到世界，以及基于文本的事件编辑。所有模式均通过连续键盘输入控制，用于人物和摄像机移动，实现自回归生成可探索且持久的虚拟世界。我们在补充材料中包含了演示视频。

架构初步

本文采用 Wan提出的方法论，建立了一个用于联合 T2V 和 I2V 生成的基础模型。该方法使用噪声初始化视频生成过程。对于文本生成视频训练，文本嵌入和被输入到 DiT 主干网络中。

对于图像生成视频模型，给定图像或视频条件，将其补零以匹配维度。构建一个二进制掩码（其中 1 表示保留区域，0 表示待生成区域）。条件输入通过进行融合，随后由 Wan DiT 主干网络处理。此时，可以被视为由历史帧和预测帧组成。

本文的文本编码策略不同于 Wan 的方法。Wan 直接通过 T5 处理整个标题，而本文如图 3(b) 所示，将标题分解为 事件描述 (Event Description) 和 动作描述 (Action Description)，并将它们分别输入 T5。随后将得到的嵌入表示进行拼接。事件描述指定要生成的目标场景或事件，而动作描述定义键盘和鼠标控制。这种方法具有显著优势：由于可能的动作描述集合是有限的，它们可以被高效地预计算和缓存。同时，事件描述仅在初始生成阶段处理。结果是，该方法大幅降低了后续视频推理步骤中的 T5 计算开销。模型使用 Rectified Flow 损失进行训练。

图 3.Yume1.5 的核心组件。 (a) 具有线性注意力的 DiT 块，可实现有效的特征融合。 (b) 具有分解的事件和动作描述的训练管道。 (c) 基于时间距离以不同压缩率进行自适应历史标记下采样。 (d) 具有双压缩内存管理的基于块的自回归推理。

通过联合时空通道建模 (TSCM) 实现长视频生成

鉴于视频推理持续时间的延长，视频条件的帧数逐渐增加，导致巨大的计算开销。将所有上下文帧包含在计算中是不切实际的。现有的几种方法旨在缓解这个问题：

滑动窗口：一种广泛采用的方法，选择当前预测帧附近的窗口内的连续最近帧。然而，这种方法往往导致历史帧信息的丢失。
历史帧压缩：诸如 FramePack和 Yume等方法对历史帧进行压缩，对接近预测帧的帧应用较少的压缩，对较远的帧应用较大的压缩。这同样导致更远的历史帧信息丢失增加。
基于相机轨迹的搜索：像 World Memory这样的方法利用已知的相机轨迹来计算历史帧与待预测当前帧之间的视场重叠，选择重叠度最高的帧。这种方法与通过键盘输入控制的视频模型不兼容。即使有预测的相机轨迹，在动态视点变化下准确估计轨迹仍然很困难，通常会导致显著误差。

为了解决这些局限性，本文提出了 联合时空-通道建模 (Joint Temporal–Spatial–Channel Modeling) 方法，分两步实施。本文考虑分别对历史帧应用时空压缩和通道级压缩。

时空压缩

对于历史帧，本文首先应用时间和空间压缩：以 1/32 的比率执行随机帧采样，随后使用高压缩比的 Patchify。压缩方案运作如下：

在此，表示分别沿的时间、高度和宽度维度进行、和的下采样。类似地，对应于沿相同维度的、和下采样率，依此类推。本文通过在 DiT 内部插值 Patchify 权重来实现这些变化的下采样率。与 YUME 相比，本文执行时间随机帧采样的方法减少了 Patchify 的参数量和模型的计算负载。本文获得压缩表示，并通过具有下采样率的原始 Patchify 处理预测帧。压缩表示随后与处理后的预测帧拼接，组合后的张量被输入到 DiT 块中。

通道压缩

本文对历史帧应用进一步的下采样，将通过一个压缩率为的 Patchify，并将通道维度降至 96，得到。如图 3(a) 所示，这些压缩的历史 Token 被输入到 DiT 块中。在视频 Token 通过 DiT 块中的交叉注意力层后，它们首先通过全连接 (FC) 层进行通道缩减，在提取预测帧后，将其与拼接。组合后的 Token 通过线性注意力层融合产生。最后，通过另一个 FC 层以恢复通道维度，然后逐元素加到上进行特征融合：，其中表示中的 Token 数量。

线性注意力。本文的设计如图 3(a) 所示。该方法从线性注意力中汲取灵感，易于实现。本文通过全连接层投影以获得查询、键和值表示，然后用点积替换指数核函数，其中是 ReLU 激活函数。计算定义如下：

其中表示中的 Token 数量。然后本文计算，随后将 ROPE 应用于和，同时结合归一化层以防止梯度不稳定。通常，注意力输出会通过线性层，因此本文在此计算之前应用归一化层：

小结。由于标准注意力的计算成本对输入 Token 的数量敏感，通过时空压缩来压缩历史帧，并在 DiT 块中使用标准注意力将其与预测帧一起处理。相反，由于线性注意力对通道维度敏感，对历史帧应用通道级压缩，并在 DiT 块的线性注意力层中将其与预测帧融合。通过这种方法，本文实现了联合时空通道压缩，同时保持了生成质量。

实时加速

本文首先在混合数据集上训练预训练的扩散模型。本文对 T2V 和 I2V 任务采用交替训练策略。具体来说，模型在当前步骤在 T2V 数据集上训练，在下一步切换到 I2V 数据集。这种方法使模型具备了世界生成、编辑和探索的综合能力。由此产生的模型称为基础模型。

如图 4 所示，本文首先使用基础模型的权重初始化生成器、假模型和真模型。生成器从其自身的分布中采样先前的帧，并将其用作生成新预测帧的上下文。这个过程迭代进行，按顺序生成并组装帧以形成清晰的视频序列。然后，本文通过最小化跨噪声水平的扩散真实数据分布与生成数据分布之间的预期 KL 散度，将多步扩散模型转换为少步生成器：

其中是步骤的前向扩散。与 DMD 的关键区别在于使用模型预测的数据而不是真实数据作为视频条件，从而减轻了训练-推理差异及相关的误差累积。

本文的方法与 Self-Forcing 的不同之处在于消除了 KV 缓存并引入了 时空通道建模 (TSCM)，从而能够利用更长的上下文信息。

实验

实验设置：

基础模型：使用 Wan2.2-5B 作为预训练模型。
训练参数：分辨率 704x1280，16 FPS，使用 NVIDIA A100 GPU。先进行 10,000 次迭代的基础训练，再进行 600 次迭代的 Self-Forcing + TSCM 训练。
评估指标：使用 Yume-Bench，包含指令跟随（Instruction Following）、主体/背景一致性、运动平滑度、美学质量和成像质量。

定量结果：

I2V 生成对比：
- Yume1.5 在指令跟随能力上得分 0.836，远超 Yume (0.657)、MatrixGame (0.271) 和 Wan-2.1 (0.057)。
- 推理速度极快：生成一个 block 仅需 8 秒，而 Wan-2.1 需 611 秒。
长视频生成验证：
- 对比了是否使用 Self-Forcing + TSCM 的模型。结果显示，随着视频片段数量增加（时间推移），使用该技术的模型在第 4-6 个片段的美学得分和图像质量得分保持稳定，而未使用的模型则出现明显下降。