首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >视觉-语言-动作三模态融合新突破:villa-X让机器人像人一样“看懂就会做”

视觉-语言-动作三模态融合新突破:villa-X让机器人像人一样“看懂就会做”

作者头像
一点人工一点智能
发布2025-11-26 15:52:19
发布2025-11-26 15:52:19
670
举报

编辑:陈萍萍的公主@一点人工一点智能

导读:视觉-语言-动作(Vision-Language-Action, VLA)模型已成为机器人操作策略学习中的重要范式,能够根据语言指令执行任务并泛化至新场景。近年来,研究者开始探索将潜在动作(Latent Actions)——一种对连续帧间视觉变化的抽象表示——引入VLA预训练中。论文提出了一种名为villa-X的新型视觉-语言-潜在动作(ViLLA)框架,显著提升了潜在动作的建模方式及其在VLA预训练中的融合效果。

论文地址:https://arxiv.org/pdf/2507.23682

项目地址:https://microsoft.github.io/villa-x/

villa-X通过改进潜在动作的学习方式及其在VLA预训练中的融合机制,在多个仿真环境(如SIMPLER和LIBERO)和真实机器人平台(包括夹爪和灵巧手操作)中均取得了优越性能。潜在动作作为连续帧之间的抽象表示,能够捕捉运动语义,充当模仿学习中的伪动作标签,并利用大量无动作标注的视频数据增强策略训练。

然而,当前方法存在两个关键问题:一是如何更好地学习潜在动作,二是如何将其有效融入VLA预训练中。villa-X框架通过引入 proprio Forward Dynamics Model(FDM)模块和联合扩散建模机制,显著提升了潜在动作的物理基础性和跨具身泛化能力。

引言

论文进一步阐述了潜在动作在VLA预训练中的重要性。现有方法如LAPO、Genie、Dynamo等虽在视频游戏或仿真环境中取得进展,但在机器人学习中仍面临潜在动作与底层机器人状态和动作之间缺乏对齐的问题。

villa-X通过引入 proprio FDM 模块,将视觉变化与机器人本体状态和动作联系起来,增强了潜在动作的物理可解释性和可执行性。同时,通过联合扩散过程建模潜在动作与机器人动作的分布,实现了更结构化的信息传递。

相关工作

在视觉-语言-动作模型方面,现有研究主要基于预训练的视觉-语言模型(VLM)生成机器人动作,或通过动作专家将VLM输出映射为机器人动作。尽管大规模数据集(如Open X-Embodiment)提升了VLA的泛化能力,跨具身泛化仍因机器人配置差异而具有挑战性。利用无标注轨迹数据(通过潜在动作、语言子目标或视觉子目标)是解决这一问题的有效途径。villa-X采用潜在动作方法,并对其建模和集成方式进行了显著改进。

在潜在动作建模方面,早期工作如LAPO和Genie主要针对视频游戏领域,而机器人学习中的方法如LAPA、Moto-GPT、GROOT等则尝试将潜在动作融入VLA预训练。villa-X通过联合扩散过程建模潜在动作与机器人动作,实现了更显式和结构化的信息传递,避免了如Go-1中教师强制导致的不一致问题。

方法

villa-X框架由两个核心组件构成:潜在动作模型(LAM) 和执行器模块(ACT)。整个学习过程分为三个阶段:LAM预训练、ACT预训练和在目标具身数据上的微调。

3.1 潜在动作模型(LAM)

LAM负责从一对观测帧中推断潜在动作。其核心是一个逆动力学模型(IDM),用于从相邻视频帧ot和ot+K中提取潜在动作zt,其中K为可配置的窗口大小,用于平衡运动的可感知性和泛化能力。与以往仅基于视觉重建损失的方法不同,villa-X引入了 proprio Forward Dynamics Model(FDM) 作为辅助解码器,预测未来机器人状态和动作。

该模块通过对齐高级抽象与物理动力学,增强了潜在动作对机器人策略学习的适用性。为避免潜在动作过度依赖特定具身信息,模型还引入了具身上下文输入(如数据集ID、控制频率),以隔离可转移的动作表示。

在实现上,LAM接收长度为TLAM的观测帧序列,输出TLAM−1个潜在动作。IDM基于时空Transformer架构,后接向量量化层生成离散潜在动作。图像重建FDM采用Vision Transformer(ViT),而proprio FDM则是一个双层MLP。

在推理阶段,仅需IDM提取潜在动作,FDM模块主要用于可视化分析。

3.2 执行器模块(ACT)

ACT模块基于预训练的VLM(如PaliGemma),接收文本指令l和初始视觉观测ot,输出机器人动作序列。其结构包含三个子组件:VLM、ACT-latent 和 ACT-robot。VLM负责提取视觉和语言特征;ACT-latent 基于扩散目标建模n步潜在动作序列zt,zt+K,…,zt+(n−1)K;ACT-robot 同样基于扩散模型,预测m步低层机器人动作,条件依赖于VLM特征和潜在动作序列。

值得注意的是,潜在动作序列与机器人动作序列长度可以不同(m≠nK),这增强了模型的灵活性。此外,手腕相机图像作为具身特异性信息被引入ACT-robot而非VLM,以保持VLM的泛化能力。

villa-X在ACT设计中有三个关键创新:

一是将潜在动作作为中层表示桥接高层指令与底层动作;

二是通过注意力机制显式连接潜在动作与机器人动作的扩散过程;

三是支持多步潜在动作序列预测,实现结构化规划。

在训练方面,模型联合优化潜在动作和机器人动作的损失函数,并采用注意力掩码和随机丢弃策略防止过拟合。微调时针对新具身初始化上下文嵌入,保持其余参数共享。

实验分析

实验部分围绕四个核心问题展开:LAM是否学习到更高质量的潜在动作?ACT-latent能否成功规划未来动作?ACT模块能否有效利用预训练的潜在动作?villa-X在仿真和真实任务中是否优于现有基线?

4.1 潜在动作质量评估

通过探针实验评估潜在动作与机器人动作的对应关系。实验表明,引入proprio FDM的模型(w/pp)在预测误差分布上显著优于无该模块的模型(wo/pp),说明其能更好地捕获机器人动作信息。在策略预训练中,w/pp 在SIMPLER环境中平均成功率更高,且显著优于不使用潜在动作的基线(wo/LAM)。

可视化结果显示,相似潜在动作对应的图像对具有一致的机器人行为,且潜在动作能通过proprio FDM解码为可执行的机器人动作,在仿真中复现原始演示。

4.2 ACT-latent 动作规划能力

通过世界模型将ACT-latent生成的潜在动作序列渲染为未来视频,验证其规划能力。实验表明,模型能够根据语言指令识别目标物体并生成符合任务要求的潜在动作序列,即使在分布外场景中也能保持较好的泛化能力。

4.3 潜在动作的有效利用

与LAPA和Go-1等潜在动作方法的对比显示,villa-X在SIMPLER环境中的平均成功率显著更高,证明了其集成机制的有效性。

4.4 仿真与真实环境评估

在SIMPLER和LIBERO基准测试中,villa-X均达到最优性能。在真实机器人平台上(Realman夹爪和Xhand灵巧手),villa-X在任务执行和泛化测试中均优于现有基线,特别是在具身迁移任务中表现突出。

结论与未来工作

villa-X通过改进潜在动作的学习与集成机制,在多个仿真和真实任务中实现了优越性能。其核心贡献在于引入proprio FDM增强潜在动作的物理基础性,以及通过联合扩散建模实现结构化信息传递。

未来工作可考虑引入基于基础VLM的批评器模块,对潜在动作序列进行多样本筛选和轨迹验证,进一步提升ViLLA框架的能力。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一点人工一点智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档