首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >双手协作新突破!清华团队打造"高斯世界模型",让机器人像人类一样默契配合

双手协作新突破!清华团队打造"高斯世界模型",让机器人像人类一样默契配合

作者头像
一点人工一点智能
发布2025-07-03 14:54:11
发布2025-07-03 14:54:11
1820
举报

原文地址:https://arxiv.org/abs/2506.19842

项目地址:https://github.com/April-Yz/ManiGaussian_Bimanual

简介

论文提出了一种创新的双手操作框架,解决了现有单臂操作方法在双臂协同任务中性能显著下降的核心问题。研究的核心贡献——通过分层高斯世界模型和任务导向的高斯泼溅技术,实现了对多体时空动态的精确建模。与传统单臂系统不同,双手操作需要处理两个机械臂与目标物体之间复杂的相互作用,这种"多体动态"特性使得简单扩展单臂方法难以奏效。作者团队明确指出,现有最佳方法PerAct²在类似"将黄色物品递给我"的任务中失败,而ManiGaussian++能够成功完成,这得益于其对场景动态的显式编码能力。

图片
图片

引言部分系统性地阐述了研究的背景与动机。双手操作系统在家庭服务、医疗护理和工业制造等领域展现出巨大潜力,但其开发面临两大核心挑战:多体动态建模的复杂性和视觉表征的泛化能力不足。

作者批判性地分析了现有方法的局限性——ManiGaussian等单臂方法仅编码粗略的场景级时空动态,无法捕捉双臂系统中复杂的交互模式;而基于体素或点云的表征方法则缺乏对几何关系(如遮挡)的深入理解。

论文提出的解决方案是通过分层高斯世界模型构建"领导者-跟随者"架构,其中领导者预测稳定臂运动导致的高斯泼溅变形,跟随者则生成动作臂运动产生的物理后果,这种创新架构为多体动态建模提供了全新思路。

相关工作:技术演进的批判性整合

论文对相关工作的梳理展现了作者对领域发展脉络的深刻把握。在机器人双手操作方面,文章指出当前主流方法如PerAct²虽然通过3D感知体素观察和关键帧动作预测显示出潜力,但其视觉表征的局限性成为泛化能力的瓶颈。特别值得关注的是,作者强调了大规规模专家示范数据获取的成本问题——由于双手操作需要精确协调两个高自由度机械臂,通过远程操作收集训练数据代价高昂,这为本文提出的自监督学习方法提供了合理性基础。

关于机器人学习的视觉表征,论文分析了从2D到3D表征的技术演进过程。早期基于时间对比学习[33]和掩码建模[36]的2D表征方法只能处理简单任务,而近期NeRF[32]和高斯泼溅[26]等3D重建技术虽然提升了场景理解能力,但多体动态建模仍然悬而未决。作者特别指出,ManiGaussian[30]首次将场景动态编码到高斯嵌入空间,为单臂操作树立了新标杆,但其直接扩展到双手系统会导致性能显著下降,这一观察直接引出了本文的核心创新点。

在世界模型部分,论文梳理了从潜在空间预测到高维表征预测的技术发展,指出现有方法难以建模双臂操作中多个操作者与目标之间的相互影响。高斯泼溅相关研究则突出了其显式可编辑特性对机器人操作的独特价值——能够持续跟踪操作器和目标。通过对这四个领域研究的批判性整合,作者清晰地定位了ManiGaussian++的创新位置:它是首个将高斯泼溅与分层世界模型结合来解决双手操作多体动态问题的工作。

方法框架:分层高斯世界模型

3.1 问题建模与整体架构

论文首先形式化定义了语言条件化的双手操作问题。在每个时间步t,智能体观察ot=(Ct,Dt,Pt)包含RGB图像、深度图像和本体感知信息;动作at则包含末端执行器的位置、朝向、开合状态和碰撞避免标志。与单臂系统不同,双手操作需要同时预测左右臂的动作(

),这显著增加了动作空间的复杂性和多模态性。

图片
图片

图2所示的整体流程揭示了ManiGaussian++的三大核心技术组件:

(1)将RGB-D输入转换为体素空间并通过稀疏卷积网络提取体积表征;

(2)任务导向高斯泼溅生成模块,为不同角色(动作臂/稳定臂)的机械臂和目标物体分配区分性实例标签;

(3)分层高斯世界模型,采用领导者-跟随者架构预测未来场景。

这种架构设计的关键洞见在于:将双臂的不同角色(稳定与动作)显式分离,从而降低多体动态建模的复杂度。最终,增强的体积表征输入到多模态Transformer PerceiverIO[24]中生成动作预测,这种设计充分利用了现有最佳架构的处理能力。

3.2 任务导向高斯泼溅

传统高斯泼溅[26]使用参数θi=(μi,ci,ri,si,σi)表示位置、颜色、朝向、尺度和透明度,通过可微分的基于瓦片的栅格化进行渲染。论文对此进行了两项关键扩展:一是引入时间维度,使高斯粒子能够随时间变化(

图片
图片

);二是添加实例级逻辑

图片
图片

,表示高斯点属于特定任务相关实例(如不同机械臂或目标物体)的概率。这种扩展使得系统能够通过公式3渲染实例分割图:

图片
图片

其中αi表示第i个高斯点的2D密度。实例标签的监督来自预训练的视觉语言模型(如GroundedSAM[37]),根据人类指令中的关键词生成。这种设计实现了三个重要目标:

(1)明确区分场景中的动作臂和稳定臂;

(2)突出任务相关对象;

(3)为后续的分层动态建模提供结构化表征。

与直接将原始图像输入策略网络相比,这种中间表征大大降低了学习复杂度。

3.3 分层高斯世界模型

分层高斯世界模型是ManiGaussian++最核心的创新,它通过领导者-跟随者架构精确建模多体动态。领导者模型qs,ϕ预测稳定臂动作

图片
图片

导致的高斯参数变化

图片
图片

,跟随者模型qa,ϕ则综合稳定臂和动作臂

图片
图片

的影响,预测最终的高斯状态

图片
图片

。这种层级式预测机制对应着物理世界中的因果关系——稳定臂的运动通常会先影响场景状态,进而改变动作臂操作的环境条件。

高斯粒子的运动建模基于SE(3)刚体变换,遵循牛顿-欧拉方程:

图片
图片

其中

图片
图片

,

图片
图片

图片
图片

,

图片
图片

分别表示稳定臂和动作臂引起的位姿变化。这种参数化方式既符合刚体运动的物理规律,又保持了计算效率。整个预测流程可总结为:

· 表征网络:

图片
图片

· 高斯回归器:

图片
图片

· 领导者模型:

图片
图片

· 跟随者模型:

图片
图片

· 高斯渲染器:

图片
图片

这种架构设计使模型能够分阶段理解双臂动作的复合影响,显著提升了多体动态预测的准确性。

图片
图片

实验分析

4.1 实验设置与基准对比

图片
图片

论文在模拟环境RLBench²和9个真实世界任务上进行了全面评估。RLBench²包含10个不同难度级别的语言条件化操作任务,每个任务提供100个专家示范用于训练。实验结果展示在论文表I中,ManiGaussian++以35.6%的平均成功率显著超越PerAct²(18.8%)和原始ManiGaussian(20.2%),相对提升分别达到89.36%和76.24%。特别值得注意的是,在"将积木放入相应形状容器"任务中,ManiGaussian++取得了60%的成功率,而对比方法均低于30%,这验证了该方法在需要精确空间理解和双手协调的任务中的优势。

图片
图片

真实世界实验采用了两个UR5e机械臂配置,任务包括"开瓶倒水"、"双手组装"等高难度操作。图4显示ManiGaussian++平均成功率达到62.22%,相比PerAct²(31.11%)和ManiGaussian(45.56%)有显著提升。这些结果强有力地证明了该方法从模拟到现实的迁移能力,以及处理真实世界感知噪声和控制误差的鲁棒性。作者特别指出,所有任务使用单一模型完成,仅通过语言指令切换任务模式,这展现了该框架作为通用双手操作系统的潜力。

图片
图片

4.2 消融研究与可视化分析

图片
图片

表II的消融研究系统验证了各技术组件的贡献。基线PerAct²仅获得5.67%的成功率,添加高斯回归器提升至20.00%,说明3D高斯表征比传统体素更有效。加入任务导向高斯泼溅后性能提高到26.67%,证实了区分双臂角色的重要性。完整的分层高斯世界模型最终达到60.00%的成功率,相对提升33.33%,这充分证明了分层动态建模的关键价值。

图片
图片

图3的新视角合成结果直观展示了ManiGaussian++的多体动态建模能力。在"按下按钮"任务中,模型仅凭正面视角(无法直接看到夹爪形状)就能准确预测机械臂在未来时间步的位姿;而在"清扫到簸箕"任务中,模型不仅预测了机械臂运动,还准确估计了扫帚受操作影响的运动轨迹。这些可视化结果表明,分层高斯世界模型确实捕捉到了物体间的物理相互作用,而不仅是简单的运动外推。

图片
图片

结论与展望

文章通过三大创新推动了双手操作领域的发展:任务导向高斯泼溅对操作角色的明确区分、领导者-跟随者架构的分层动态建模、以及基于未来场景预测的自监督学习目标。这些技术共同解决了多体时空动态建模这一核心挑战,在模拟和真实环境中均展现出显著优势。

未来研究方向:

首先,当前方法依赖于预训练的视觉语言模型提供实例分割监督,如何实现完全端到端的学习值得探索。

其次,高斯泼溅的显式表征虽然直观,但在处理可变形物体时可能存在局限,需要进一步扩展。

最后,将这套框架扩展到更多机械臂(如三臂系统)和更复杂的任务场景,将验证其真正的通用性。这项工作不仅为机器人双手操作设立了新基准,其分层建模思想也对更广泛的具身智能研究具有启示意义。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一点人工一点智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档