作者:Hongzhe Bi等
解读:AI生成未来

亮点直击
本工作考虑语言条件下的机器人操作任务。对于每个具身智能体,任务定义了动作 、观测 (视觉输入)、语言指令 以及机器人的本体感知 ,其中 分别表示动作空间、观测空间和语言指令空间。任务通常提供一个专家数据集 ,其中包含专家在 个时间步内收集的机器人本体感知、视觉观测和动作,以及每条轨迹对应的语言标注。本工作在 上训练一个由 参数化的策略。在每个时间步 ,策略基于当前的观测和本体感知预测接下来的 个动作(即动作分块 action chunking),对分布 或 进行建模。策略 的训练目标是最大化似然目标:

此外,基于上述符号定义,可以推导出具身智能 5 种建模类型的概率分布,这些可以集成到一个单一的模型中进行训练:
一个有能力的具身智能体必须作为一个统一的整体,整合一系列认知功能——从理解场景和指令、想象可能的未来,到预测后果和生成动作。目前的模型是碎片化的,无法在一个系统中捕捉所有必要的能力。这就提出了一个挑战:如何在一个框架内统一建模五个关键分布——VLA、世界模型、IDM、视频生成模型和视频-动作联合预测模型。虽然以前的工作(如 UWMs)取得了一些进展,但仍存在一个关键局限:这些方法要么是从头开始训练的,要么是建立在较小的基础模型之上,或者——即使结合了一些先验——也总是缺乏全方位的知识,要么缺少来自 VLM 的视觉理解先验,要么缺少来自 VGM 的物理交互先验。因此,它们缺乏稳健和可泛化的具身智能所需的全面世界知识。因此,在一个统一框架内联合建模视觉、语言和动作的各种分布这一非同寻常的挑战仍未得到解决,这正是本工作所填补的空白。
具身智能的一个核心挑战是如何有效利用大规模异构数据。不同具身智能体的动作空间在维度、范围和语义上差异很大,机器人在形态、驱动和传感方面也各不相同。结果是,控制信号无法直接复用,策略难以学习可跨具身智能体迁移的通用先验。现有的方法试图通过使用带有具身特定信息注入的通用骨干网络,或构建强制统一不同具身智能体的高维动作向量来解决这个问题。然而,它们仍然主要依赖于有标签的机器人轨迹,无法将这些数据集与缺乏动作标注但包含丰富运动和物理交互线索的大规模互联网视频或以自我为中心的人类视频整合在一起。这一局限性阻碍了动作专家的大规模预训练,并降低了学习通用运动先验的能力。
模型架构。为了解决前面概述的统一多模态生成能力的挑战,本工作提出了 Motus,一个统一的潜在动作世界模型。首先,Motus 被设计为一个通用的生成模型,在异构多模态数据上进行联合学习,从而在一个单一网络中集成通用系统的多种能力(例如,建模 5 种分布)。其次,为了避免对海量对齐多模态数据的不切实际的需求,Motus 利用了现有基础模型的丰富预训练先验。它在一个混合 Transformer (MoT) 架构中(如图 1 所示)集成了一个预训练的 VGM(生成专家)、一个带有预训练 VLM 的理解专家和一个动作专家,有效地融合了它们的互补优势——涵盖场景理解、指令解释、后果预测、未来视频想象和动作规划——而无需完全从头开始训练。

图 1.Motus 架构。 在这里,... 是动作,... 是潜在动作,τv 和 τa 分别是视频生成模型和动作专家的修正流时间步长。
与统一世界模型 (UWMs) 简单地连接观测token和动作token并通过单一的 个 UWM 块(包含自注意力和前馈网络 (FFN) 层)处理不同,本工作的方法通过采用 MoT 结构利用了预训练的 VLM 和 VGM。在该模型中,每个专家维护一个独立的 Transformer 模块,而多头自注意力层是连接的,即**三模态联合注意力 (Tri-model Joint Attention)**。这不仅保留了专家之间独特的功能角色而不引起任务干扰,还实现了有效的跨模态特征融合,鼓励多样化的预训练知识相互补充。在训练期间,Motus 使用基于整流流 (rectified flow) 的目标联合预测视频块和动作块:
其中 是条件帧, 是随后的观测和动作, 和 是分配的时间步, 是采样的该高斯噪声, 是统一模型预测的速度场, 分别是观测和动作的损失。通过为视频和动作分别分配不同的时间步和噪声尺度,Motus 建立了一个类似 UniDiffuser 的调度器,以捕捉异构数据分布,并在推理过程中自适应地在各种具身基础模型模式之间切换(例如,VLA、世界模型、IDM、VGM、联合预测)。最终模型在一个统一的多模态架构内实现了理解场景、遵循指令、预测结果、想象未来和输出动作。
动作密集-视频稀疏预测 (Action-Dense Video-Sparse Prediction)。由于本模型建立在广泛引用的动作分块 (action-chunking) 技术之上,Motus 需要预测未来的视频块和动作序列 。这导致了几个问题:(1) 训练和推理效率低,(2) 冗余的视频帧预测,以及 (3) 三模态联合注意力机制中的不平衡——视频token的数量显著超过动作token。这种不平衡导致模型过度拟合视频预测,从而削弱了其动作预测能力。为了解决这些问题,本工作提出了动作密集-视频稀疏预测策略,如图 2 所示。在训练和推理过程中,本工作对视频帧进行下采样,使视频token和动作token的数量保持平衡——例如,将视频帧率设置为动作帧率的六分之一。

图 2. 动作密集视频稀疏预测.视频帧和动作的采样率不同
专家细节。对于生成专家,本工作采用 Wan 2.2 5B 作为视频基础模型,因为它易于获取和使用。本工作扩展了其自注意力上下文以创建跨模态的三模态联合注意力机制。对于动作专家,本工作构建了一个与 Wan 深度相同的 Transformer 块。每个块包含用于注入整流流时间步的 AdaLN、一个前馈网络 (FFN) 和用于跨专家交互的三模态联合注意力。本工作选择 Qwen3-VL-2B 作为理解专家,因为它在 3D 接地 (grounding)、空间理解和精确物体定位方面具有固有能力,这对于机器人操作至关重要。该专家的输入取自 VLM 对应token的最后一层。理解专家本身由几个 Transformer 块组成,每个块包含层归一化、一个 FFN 和三模态联合注意力。
本工作进一步解决了挑战 2,通过直接从视觉动态中学习可泛化的动作模式来利用大规模异构数据。具体而言,引入了**潜在动作 (latent actions)**,它编码了直接从像素学习到的运动。这些潜在动作允许模型从互联网视频、以自我为中心的人类演示和多机器人轨迹等各种来源吸收运动知识,从而增强动作专家的预训练,即使是在没有显式动作标签的数据上也是如此。
基于光流的表示。本工作采用光流作为运动的自然表示,它捕捉连续帧之间的像素级位移。具体来说,光流由 DPFlow 计算,然后转换为 RGB 图像。为了将这种高维表示压缩到控制级空间,本工作采用了深度卷积变分自编码器 (DC-AE),它在重构光流的同时将其编码为四个 512 维的token。然后,一个轻量级编码器将这些连接的 特征投影到一个 14 维向量中,大致匹配典型机器人动作空间的规模。整体架构如图 3 所示。这种维度对应关系确保了潜在表示可以自然地与真实的机器人控制对齐,并充当感知和动作之间的桥梁。

图3 Latent Action VAE
训练与分布对齐。为了帮助将潜在空间对齐到现实的动作空间,遵循 AnyPos 的方法整合了任务无关数据。具体来说,任务无关数据使用 Curobo 通过以任务无关的方式随机采样目标机器人的动作空间来收集图像-动作对。这些数据提供了额外的真实动作监督,帮助 VAE 学习反映可行运动行为的嵌入,并将潜在动作锚定到真实的控制分布。
在训练期间,本工作混合了 90% 的用于自监督重构的无标签数据和 10% 的用于弱动作监督的有标签轨迹,其中有标签部分包括任务无关数据和标准机器人演示。维度对应和弱动作监督共同驱动潜在动作分布与真实动作分布对齐,使得从视频中学习到的运动先验自然地映射到可执行的控制。
总损失结合了重构、对齐和 KL 正则化:
其中 最小化光流重构误差,第二项对齐潜在动作和真实动作, 正则化潜在空间; 和 是超参数。
Motus 训练。Motus 分三个结构化阶段进行训练(表 1),逐步将来自不同数据集的物理交互先验整合到可迁移至目标机器人的策略中。每个阶段解决一个关键挑战:

六层数据金字塔。为了支持这种渐进式学习,本工作构建了一个分层的数据金字塔,按规模和特异性组织:

图4。具身数据金字塔将数据分为六个层级,从底部的1级到顶端的6级。数据量从下而上递减,而数据质量则在提升。3级和4级的顺序有时会有所不同。





Motus,这是一个统一的潜在动作世界模型,它将具身基础模型的主流能力集成到一个单一的生成框架中,即视觉-语言理解、视频生成、逆动力学、世界建模和视频-动作联合预测。通过 MoT 连接预训练专家,使用 UniDiffuser 风格的调度器协调多模态建模,并引入潜在动作作为像素级“Delta Action”和运动表示,Motus 有效地从大规模异构数据中学习,并继承了通用多模态先验和丰富的物理交互知识。在仿真和真实世界场景中的大量实验表明,统一建模所有功能和先验显著有利于下游机器人任务。
局限性:尽管结果很有希望,但 Motus 需要大量的计算资源进行训练和推理,这可能会限制其实时应用。此外,虽然潜在动作弥补了视觉和控制之间的差距,但在极其精细的操作任务中,其保真度可能仍不如直接的高频本体感知控制。未来的工作将集中在优化推理效率和探索更高保真度的潜在动作表示上。
参考文献
[1] Motus: A Unified Latent Action World Model