作者:Xiaofeng Mao等
解读:AI生成未来

论文链接:https://arxiv.org/pdf/2512.22096 开源代码:https://github.com/stdstu12/YUME 工程链接:https://stdstu12.github.io/YUME-Project 数据链接:https://github.com/Lixsp11/sekai-codebase
亮点直击
现有的视频生成和世界模拟模型主要面临三大挑战:
Yume1.5 通过三个核心维度的系统优化来解决上述问题:
本文提出了一个综合框架,通过多维度的系统性创新,生成交互式、逼真且时间连贯的视频世界。该方法为联合文本生成视频(Text-to-Video, T2V)和图像生成视频(Image-to-Video, I2V)建立了统一的基础,同时解决了长期一致性和实时性能的关键挑战。核心贡献包括:(1)用于高效长视频生成的联合 TSCM 策略;(2)结合 TSCM 和 Self-Forcing 的实时加速框架;(3)一种交替训练范式,同时实现世界生成和探索能力。总的来说,这些进展促进了适用于复杂现实场景探索的动态交互式环境的创建。

图1。Yume1.5框架支持三种交互式生成模式:从描述生成文本到世界、从静态图像生成到世界,以及基于文本的事件编辑。所有模式均通过连续键盘输入控制,用于人物和摄像机移动,实现自回归生成可探索且持久的虚拟世界。我们在补充材料中包含了演示视频。
本文采用 Wan提出的方法论,建立了一个用于联合 T2V 和 I2V 生成的基础模型。该方法使用噪声 初始化视频生成过程。对于文本生成视频训练,文本嵌入 和 被输入到 DiT 主干网络中。
对于图像生成视频模型,给定图像或视频条件 ,将其补零以匹配维度 。构建一个二进制掩码 (其中 1 表示保留区域,0 表示待生成区域)。条件输入通过 进行融合,随后由 Wan DiT 主干网络处理。此时, 可以被视为由历史帧 和预测帧 组成。
本文的文本编码策略不同于 Wan 的方法。Wan 直接通过 T5 处理整个标题,而本文如图 3(b) 所示,将标题分解为 事件描述 (Event Description) 和 动作描述 (Action Description),并将它们分别输入 T5。随后将得到的嵌入表示进行拼接。事件描述指定要生成的目标场景或事件,而动作描述定义键盘和鼠标控制。这种方法具有显著优势:由于可能的动作描述集合是有限的,它们可以被高效地预计算和缓存。同时,事件描述仅在初始生成阶段处理。结果是,该方法大幅降低了后续视频推理步骤中的 T5 计算开销。模型使用 Rectified Flow 损失进行训练。

图 3.Yume1.5 的核心组件。 (a) 具有线性注意力的 DiT 块,可实现有效的特征融合。 (b) 具有分解的事件和动作描述的训练管道。 (c) 基于时间距离以不同压缩率进行自适应历史标记下采样。 (d) 具有双压缩内存管理的基于块的自回归推理。
鉴于视频推理持续时间的延长,视频条件 的帧数 逐渐增加,导致巨大的计算开销。将所有上下文帧包含在计算中是不切实际的。现有的几种方法旨在缓解这个问题:
为了解决这些局限性,本文提出了 联合时空-通道建模 (Joint Temporal–Spatial–Channel Modeling) 方法,分两步实施。本文考虑分别对历史帧 应用时空压缩和通道级压缩。
对于历史帧 ,本文首先应用时间和空间压缩:以 1/32 的比率执行随机帧采样,随后使用高压缩比的 Patchify。压缩方案运作如下:
在此, 表示分别沿 的时间、高度和宽度维度进行 、 和 的下采样。类似地, 对应于沿相同维度的 、 和 下采样率,依此类推。本文通过在 DiT 内部插值 Patchify 权重来实现这些变化的下采样率。与 YUME 相比,本文执行时间随机帧采样的方法减少了 Patchify 的参数量和模型的计算负载。本文获得压缩表示 ,并通过具有 下采样率的原始 Patchify 处理预测帧。压缩表示 随后与处理后的预测帧 拼接,组合后的张量被输入到 DiT 块中。
本文对历史帧 应用进一步的下采样,将 通过一个压缩率为 的 Patchify,并将通道维度降至 96,得到 。如图 3(a) 所示,这些压缩的历史 Token 被输入到 DiT 块中。在视频 Token 通过 DiT 块中的交叉注意力层后,它们首先通过全连接 (FC) 层进行通道缩减,在提取预测帧 后,将其与 拼接。组合后的 Token 通过线性注意力层融合产生 。最后,通过另一个 FC 层以恢复通道维度,然后逐元素加到 上进行特征融合:,其中 表示 中的 Token 数量。
线性注意力。本文的设计如图 3(a) 所示。该方法从线性注意力中汲取灵感,易于实现。本文通过全连接层投影 以获得查询 、键 和值 表示,然后用点积 替换指数核函数 ,其中 是 ReLU 激活函数。计算定义如下:

其中 表示 中的 Token 数量。然后本文计算 ,随后将 ROPE 应用于 和 ,同时结合归一化层 以防止梯度不稳定。通常,注意力输出 会通过线性层,因此本文在此计算之前应用归一化层:

小结。由于标准注意力的计算成本对输入 Token 的数量敏感,通过时空压缩来压缩历史帧,并在 DiT 块中使用标准注意力将其与预测帧一起处理。相反,由于线性注意力对通道维度敏感,对历史帧应用通道级压缩,并在 DiT 块的线性注意力层中将其与预测帧融合。通过这种方法,本文实现了联合时空通道压缩,同时保持了生成质量。
本文首先在混合数据集上训练预训练的扩散模型。本文对 T2V 和 I2V 任务采用交替训练策略。具体来说,模型在当前步骤在 T2V 数据集上训练,在下一步切换到 I2V 数据集。这种方法使模型具备了世界生成、编辑和探索的综合能力。由此产生的模型称为基础模型。
如图 4 所示,本文首先使用基础模型的权重初始化生成器 、假模型 和真模型 。生成器从其自身的分布中采样先前的帧,并将其用作生成新预测帧的上下文。这个过程迭代进行,按顺序生成并组装帧以形成清晰的视频序列 。然后,本文通过最小化跨噪声水平 的扩散真实数据分布与生成数据分布之间的预期 KL 散度,将多步扩散模型转换为少步生成器 :

其中 是步骤 的前向扩散。与 DMD 的关键区别在于使用模型预测的数据而不是真实数据作为视频条件,从而减轻了训练-推理差异及相关的误差累积。
本文的方法与 Self-Forcing 的不同之处在于消除了 KV 缓存并引入了 时空通道建模 (TSCM),从而能够利用更长的上下文信息。
实验设置:
定量结果:





消融研究:

Yume1.5,这是一个交互式世界生成模型,能够通过自回归合成从单张输入图像生成无限视频,同时支持直观的基于键盘的相机控制。本文的框架解决了动态世界生成中的三个基本挑战:跨领域的通用性有限、高计算延迟以及文本控制能力不足。
Yume1.5 的关键创新包括:(1)一种联合时空通道建模 (TSCM) 方法,在保持时间连贯性的同时实现高效的长视频生成;(2)一种减轻推理过程中误差累积的加速方法;(3)通过精心的架构设计和混合数据集训练实现的文本控制世界事件生成能力。
展望将 Yume1.5 扩展以支持更复杂的世界交互,并在虚拟环境和模拟系统中拥有更广泛的应用场景。
[1] Yume1.5: A Text-Controlled Interactive World Generation Model