大幅超越π0.5和X-VLA！清北最新Motus：理解、生成、控制全能, 海量视频喂出“最强大脑”

AI生成未来

发布于 2025-12-25 14:02:55

作者：Hongzhe Bi等

解读：AI生成未来

论文链接: https://arxiv.org/abs/2512.13030
项目/代码链接: https://motus-robotics.github.io/motus

亮点直击

统一的基础模型：Motus，一个统一的具身基础模型，首次在一个生成式框架内集成了五种主流范式（世界模型、逆动力学模型、VLAs、视频生成模型以及视频-动作联合预测模型），且未牺牲通用的多模态先验
MoT 架构与联合注意力：引入混合 Transformer (MoT) 架构，通过“三模态联合注意力机制”连接预训练的视频生成专家、动作专家和理解专家
潜在动作：利用光流学习“潜在动作”，解决了大规模无标签视频数据无法用于动作预训练的难题
可扩展的训练配方：提出一套“三阶段训练流程”和“六层数据金字塔”，能利用异构数据（互联网视频、人类视频、多机器人数据等）学习跨具身智能体的可迁移运动知识

解决的问题

能力碎片化问题：现有的具身智能方法通常将感知、世界建模和控制隔离开来（例如 VLA 仅做静态策略，WM 仅做预测），缺乏一个统一系统来整合场景理解、指令遵循、未来想象和动作生成。
异构数据利用难：不同机器人的动作空间差异巨大，且海量的互联网视频数据缺乏动作标签。现有的方法难以利用这些大规模无标签数据来学习通用的运动和物理交互先验，限制了模型的泛化能力。

提出的方案

统一架构 Motus：基于 MoT 架构，集成了预训练的视频生成模型（Wan 2.2 5B）和视觉语言模型（Qwen3-VL-2B）。采用类似 UniDiffuser 的调度器，通过分配不同的时间步和噪声尺度，实现对边缘分布、条件分布和联合分布的统一建模，支持灵活切换推理模式。
动作密集-视频稀疏预测：为了平衡视频token和动作token的数量，并在动作分块（Chunking）技术下提高效率，采用了视频帧率低于动作帧率的采样策略。
基于光流的潜在动作：使用深度压缩自编码器（DC-AE）重构光流，将其编码为低维潜在向量，并结合少量任务无关的动作标签进行监督，使模型能从无标签视频中学习物理动态。

应用的技术

Mixture-of-Transformer (MoT) ：混合专家架构。
Tri-model Joint Attention：三模态联合注意力机制，用于跨模态知识融合。
Rectified Flow：基于整流流的生成目标，用于联合预测视频和动作。
Optical Flow & DC-AE：利用 DPFlow 计算光流，并使用卷积变分自编码器进行压缩，作为潜在动作表征。
UniDiffuser-style Scheduler：用于多模态生成的噪声调度策略。

达到的效果

仿真环境 (RoboTwin 2.0) ：在包含 50+ 任务的基准测试中，Motus 相比 X-VLA 提升了 15%，相比提升了 45%，特别是在随机化场景下表现优异。
真实世界环境：在 AC-One 和 Agilex-Aloha-2 双臂机器人上进行了测试，涵盖长视距规划和精细操作任务，成功率相比基线提升了 11%~48% 。
多模态能力：证明了模型不仅能作为策略控制机器人，还能作为高质量的视频生成器和世界模型预测未来。

问题阐述与挑战

具身策略

本工作考虑语言条件下的机器人操作任务。对于每个具身智能体，任务定义了动作、观测（视觉输入）、语言指令以及机器人的本体感知，其中分别表示动作空间、观测空间和语言指令空间。任务通常提供一个专家数据集，其中包含专家在个时间步内收集的机器人本体感知、视觉观测和动作，以及每条轨迹对应的语言标注。本工作在上训练一个由参数化的策略。在每个时间步，策略基于当前的观测和本体感知预测接下来的个动作（即动作分块 action chunking），对分布或进行建模。策略的训练目标是最大化似然目标：

此外，基于上述符号定义，可以推导出具身智能 5 种建模类型的概率分布，这些可以集成到一个单一的模型中进行训练：

VLA: .
WM (世界模型): .
IDM (逆动力学模型): .
VGM (视频生成模型): .
视频-动作联合预测模型: .

挑战 1：统一多模态生成能力

一个有能力的具身智能体必须作为一个统一的整体，整合一系列认知功能——从理解场景和指令、想象可能的未来，到预测后果和生成动作。目前的模型是碎片化的，无法在一个系统中捕捉所有必要的能力。这就提出了一个挑战：如何在一个框架内统一建模五个关键分布——VLA、世界模型、IDM、视频生成模型和视频-动作联合预测模型。虽然以前的工作（如 UWMs）取得了一些进展，但仍存在一个关键局限：这些方法要么是从头开始训练的，要么是建立在较小的基础模型之上，或者——即使结合了一些先验——也总是缺乏全方位的知识，要么缺少来自 VLM 的视觉理解先验，要么缺少来自 VGM 的物理交互先验。因此，它们缺乏稳健和可泛化的具身智能所需的全面世界知识。因此，在一个统一框架内联合建模视觉、语言和动作的各种分布这一非同寻常的挑战仍未得到解决，这正是本工作所填补的空白。

挑战 2：异构数据的利用

具身智能的一个核心挑战是如何有效利用大规模异构数据。不同具身智能体的动作空间在维度、范围和语义上差异很大，机器人在形态、驱动和传感方面也各不相同。结果是，控制信号无法直接复用，策略难以学习可跨具身智能体迁移的通用先验。现有的方法试图通过使用带有具身特定信息注入的通用骨干网络，或构建强制统一不同具身智能体的高维动作向量来解决这个问题。然而，它们仍然主要依赖于有标签的机器人轨迹，无法将这些数据集与缺乏动作标注但包含丰富运动和物理交互线索的大规模互联网视频或以自我为中心的人类视频整合在一起。这一局限性阻碍了动作专家的大规模预训练，并降低了学习通用运动先验的能力。

方法论

Motus

模型架构。为了解决前面概述的统一多模态生成能力的挑战，本工作提出了 Motus，一个统一的潜在动作世界模型。首先，Motus 被设计为一个通用的生成模型，在异构多模态数据上进行联合学习，从而在一个单一网络中集成通用系统的多种能力（例如，建模 5 种分布）。其次，为了避免对海量对齐多模态数据的不切实际的需求，Motus 利用了现有基础模型的丰富预训练先验。它在一个混合 Transformer (MoT) 架构中（如图 1 所示）集成了一个预训练的 VGM（生成专家）、一个带有预训练 VLM 的理解专家和一个动作专家，有效地融合了它们的互补优势——涵盖场景理解、指令解释、后果预测、未来视频想象和动作规划——而无需完全从头开始训练。

图 1.Motus 架构。在这里，... 是动作，... 是潜在动作，τv 和 τa 分别是视频生成模型和动作专家的修正流时间步长。

与统一世界模型 (UWMs) 简单地连接观测token和动作token并通过单一的个 UWM 块（包含自注意力和前馈网络 (FFN) 层）处理不同，本工作的方法通过采用 MoT 结构利用了预训练的 VLM 和 VGM。在该模型中，每个专家维护一个独立的 Transformer 模块，而多头自注意力层是连接的，即**三模态联合注意力 (Tri-model Joint Attention)**。这不仅保留了专家之间独特的功能角色而不引起任务干扰，还实现了有效的跨模态特征融合，鼓励多样化的预训练知识相互补充。在训练期间，Motus 使用基于整流流 (rectified flow) 的目标联合预测视频块和动作块：

其中是条件帧，是随后的观测和动作，和是分配的时间步，是采样的该高斯噪声，是统一模型预测的速度场，分别是观测和动作的损失。通过为视频和动作分别分配不同的时间步和噪声尺度，Motus 建立了一个类似 UniDiffuser 的调度器，以捕捉异构数据分布，并在推理过程中自适应地在各种具身基础模型模式之间切换（例如，VLA、世界模型、IDM、VGM、联合预测）。最终模型在一个统一的多模态架构内实现了理解场景、遵循指令、预测结果、想象未来和输出动作。

动作密集-视频稀疏预测 (Action-Dense Video-Sparse Prediction)。由于本模型建立在广泛引用的动作分块 (action-chunking) 技术之上，Motus 需要预测未来的视频块和动作序列。这导致了几个问题：(1) 训练和推理效率低，(2) 冗余的视频帧预测，以及 (3) 三模态联合注意力机制中的不平衡——视频token的数量显著超过动作token。这种不平衡导致模型过度拟合视频预测，从而削弱了其动作预测能力。为了解决这些问题，本工作提出了动作密集-视频稀疏预测策略，如图 2 所示。在训练和推理过程中，本工作对视频帧进行下采样，使视频token和动作token的数量保持平衡——例如，将视频帧率设置为动作帧率的六分之一。

图 2. 动作密集视频稀疏预测.视频帧和动作的采样率不同

专家细节。对于生成专家，本工作采用 Wan 2.2 5B 作为视频基础模型，因为它易于获取和使用。本工作扩展了其自注意力上下文以创建跨模态的三模态联合注意力机制。对于动作专家，本工作构建了一个与 Wan 深度相同的 Transformer 块。每个块包含用于注入整流流时间步的 AdaLN、一个前馈网络 (FFN) 和用于跨专家交互的三模态联合注意力。本工作选择 Qwen3-VL-2B 作为理解专家，因为它在 3D 接地 (grounding)、空间理解和精确物体定位方面具有固有能力，这对于机器人操作至关重要。该专家的输入取自 VLM 对应token的最后一层。理解专家本身由几个 Transformer 块组成，每个块包含层归一化、一个 FFN 和三模态联合注意力。

潜在动作

本工作进一步解决了挑战 2，通过直接从视觉动态中学习可泛化的动作模式来利用大规模异构数据。具体而言，引入了**潜在动作 (latent actions)**，它编码了直接从像素学习到的运动。这些潜在动作允许模型从互联网视频、以自我为中心的人类演示和多机器人轨迹等各种来源吸收运动知识，从而增强动作专家的预训练，即使是在没有显式动作标签的数据上也是如此。

基于光流的表示。本工作采用光流作为运动的自然表示，它捕捉连续帧之间的像素级位移。具体来说，光流由 DPFlow 计算，然后转换为 RGB 图像。为了将这种高维表示压缩到控制级空间，本工作采用了深度卷积变分自编码器 (DC-AE)，它在重构光流的同时将其编码为四个 512 维的token。然后，一个轻量级编码器将这些连接的特征投影到一个 14 维向量中，大致匹配典型机器人动作空间的规模。整体架构如图 3 所示。这种维度对应关系确保了潜在表示可以自然地与真实的机器人控制对齐，并充当感知和动作之间的桥梁。

图3 Latent Action VAE

训练与分布对齐。为了帮助将潜在空间对齐到现实的动作空间，遵循 AnyPos 的方法整合了任务无关数据。具体来说，任务无关数据使用 Curobo 通过以任务无关的方式随机采样目标机器人的动作空间来收集图像-动作对。这些数据提供了额外的真实动作监督，帮助 VAE 学习反映可行运动行为的嵌入，并将潜在动作锚定到真实的控制分布。

在训练期间，本工作混合了 90% 的用于自监督重构的无标签数据和 10% 的用于弱动作监督的有标签轨迹，其中有标签部分包括任务无关数据和标准机器人演示。维度对应和弱动作监督共同驱动潜在动作分布与真实动作分布对齐，使得从视频中学习到的运动先验自然地映射到可执行的控制。

总损失结合了重构、对齐和 KL 正则化：

其中最小化光流重构误差，第二项对齐潜在动作和真实动作，正则化潜在空间；和是超参数。

模型训练与数据

Motus 训练。Motus 分三个结构化阶段进行训练（表 1），逐步将来自不同数据集的物理交互先验整合到可迁移至目标机器人的策略中。每个阶段解决一个关键挑战：

阶段 1：学习视觉动态。 为了将模型锚定在现实的物理交互中，本工作首先使用多机器人轨迹和人类视频调整视频生成模型 (VGM)。这使得 VGM 能够根据语言指令和初始图像生成任务的合理未来视频序列。
阶段 2：潜在动作预训练。 在此阶段，本工作利用潜在动作 VAE 将光流编码为“伪动作”标签。这使得动作专家能够在不需要真实动作标注的情况下，在大规模视频数据集（包括互联网和人类视频）上进行预训练。这一过程在动作专家中建立了通用的运动先验和对物理因果关系的理解。
阶段 3：具身特定动作微调。 最后，本工作在目标机器人的特定数据集上微调整个模型（包括理解、生成和动作专家）。此阶段使模型适应特定具身智能体的特定运动学和动力学，将通用的运动知识转化为精确的控制策略。

六层数据金字塔。为了支持这种渐进式学习，本工作构建了一个分层的数据金字塔，按规模和特异性组织：

Web-Scale Videos (网络规模视频) ：提供广泛的世界知识和多样化的场景（例如，Ego4D, Something-Something v2）。
Human Egocentric Videos (人类以自我为中心的视频) ：提供类似机器人的第一人称视角的丰富手-物交互（例如，Ego4D 子集）。
Simulation Data (仿真数据) ：提供具有完美动作标签的大规模、多样化物理交互（例如，SimplerEnv, RoboTwin）。
Task-Agnostic Robotic Data (任务无关机器人数据) ：桥接视觉运动和物理控制，无需特定任务语义。
Multi-Robot Trajectories (多机器人轨迹) ：来自各种机器人平台（例如，BridgeData V2, Open X-Embodiment）的演示，提供跨具身概括。
Target Robotic Data (目标机器人数据) ：目标机器人的特定任务演示，用于最终微调。

图4。具身数据金字塔将数据分为六个层级，从底部的1级到顶端的6级。数据量从下而上递减，而数据质量则在提升。3级和4级的顺序有时会有所不同。

实验

实验设置：
- 模型总参数量约为 8B (Wan 2.2 5B + Qwen3-VL 2B + 轻量级 Action Expert)。
- 基线：对比了 (Pi-zero), X-VLA, Octo 等模型。
仿真实验 (RoboTwin 2.0)：
- 在包含 50+ 任务的基准中，测试了“清洁场景”和“随机化场景”（背景、光照、干扰物随机化）。
- 结果：Motus 在随机化设置下取得了 87.02% 的平均成功率，相比 (42.98%) 提升了约 45%，相比 X-VLA (72.84%) 提升了约 15%。这证明了 Motus 在处理分布外 (OOD) 场景时的强大鲁棒性。
真实世界实验：
- 平台：AC-One 和 Agilex-Aloha-2 双臂机器人。
- 任务：包括叠毛巾、煮咖啡、倒水、抓取物体等长视距任务。
- 结果：在 AC-One 上，Motus 平均成功率达到 63.22%（基线为 14.79%）；在 Aloha-2 上，Motus 达到 59.30%（基线为 48.60%）。
- 展示了模型在未见过的物体（OOD Cube）和复杂操作流程中的泛化能力。
消融研究：
- 验证了预训练阶段的重要性。无预训练的模型效果最差，仅阶段 1 预训练（视觉动态）带来一定提升，而完整的阶段 2 预训练（潜在动作）带来了最大的性能飞跃。
多模态能力验证：
- VGM 模式：生成了高质量的未来视频帧。
- WM 模式：准确预测了基于动作的未来状态。
- IDM 模式：在逆动力学预测误差 (MSE) 上优于专门训练的 ResNet/DINOv2 IDM 基线 (0.014 vs 0.044/0.122)。

结论与局限性

Motus，这是一个统一的潜在动作世界模型，它将具身基础模型的主流能力集成到一个单一的生成框架中，即视觉-语言理解、视频生成、逆动力学、世界建模和视频-动作联合预测。通过 MoT 连接预训练专家，使用 UniDiffuser 风格的调度器协调多模态建模，并引入潜在动作作为像素级“Delta Action”和运动表示，Motus 有效地从大规模异构数据中学习，并继承了通用多模态先验和丰富的物理交互知识。在仿真和真实世界场景中的大量实验表明，统一建模所有功能和先验显著有利于下游机器人任务。

局限性：尽管结果很有希望，但 Motus 需要大量的计算资源进行训练和推理，这可能会限制其实时应用。此外，虽然潜在动作弥补了视觉和控制之间的差距，但在极其精细的操作任务中，其保真度可能仍不如直接的高频本体感知控制。未来的工作将集中在优化推理效率和探索更高保真度的潜在动作表示上。

参考文献

[1] Motus: A Unified Latent Action World Model

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-12-19，如有侵权请联系 cloudcommunity@tencent.com 删除

机器人