
论文地址:https://arxiv.org/pdf/2506.22827
项目地址:https://vlp-humanoid.github.io/
简介
论文针对人形机器人执行复杂多步操作任务的挑战,提出了一个创新的三层分层规划与控制框架。研究的核心内容:通过结合低层强化学习控制器、中层模仿学习技能策略和高层视觉语言模型(VLM)的规划监控模块,系统在Unitree G1人形机器人上实现了73%的多步操作成功率。这一成功率数字虽然看似不高,但在真实世界复杂环境中的人形机器人操作任务中已属显著突破,凸显了VLM在机器人高层规划中的实用价值。
尽管近年来强化学习和模仿学习在单一技能演示(如行走、跳舞等)方面取得了显著进展,但将这些技能序列化为复杂的多步任务仍然面临三大挑战:高维度控制问题、实时视觉反馈需求以及技能间精确转换的复杂性。这些问题在非结构化的人类环境中尤为突出,因为环境的不确定性和任务的多样性要求机器人具备更强的适应能力和语义理解。论文的创新点在于将传统的两层控制架构(低层跟踪+高层技能生成)扩展为三层系统,新增的VLM规划监控层使机器人能够自主选择技能序列并验证执行状态,从而实现了真正的闭环多步操作。
作者对相关工作进行了精准定位,既肯定了端到端视觉-语言-动作(VLA)模型在长期规划中的潜力,也指出了其对大规模配对数据的依赖和可解释性不足的缺陷。相比之下,论文提出的分层方法通过中间语义表示和显式层次结构,在抽象指令与具体动作之间建立了更可靠的桥梁。
相关工作
"分层控制于人形机器人"部分系统梳理了该领域的技术演进脉络。从ExBody的基础工作开始,到ExBody2的全身运动扩展,再到HumanPlus引入Transformer架构并扩大训练数据规模,展示了低层控制策略如何逐步提升对复杂运动的跟踪能力。特别值得注意的是HumanPlus仅需20-40个演示即可达到60-100%的单技能成功率,这一数据为论文中层模仿学习模块的设计提供了直接依据。然而,作者敏锐地指出,这些系统在技能间转换时仍需人工干预,无法实现真正的长期自主性,这正是本文要解决的核心问题。
"VLM用于长期操作"的综述部分对比了RT-2、OpenVLA等端到端VLA模型与RT-H、NaVILA等分层方法的优劣,指出前者虽然展示了将网络知识迁移到机器人控制的潜力,但需要海量数据且缺乏可解释性;后者则通过中间语义表示实现了更好的泛化能力。作者特别强调了KALM、RoboPoint等工作如何利用VLM预测空间affordance或参数化技能库,为零样本泛化提供了新思路。这种文献梳理方式不仅展示了研究背景,也为本文提出的"规划-监控"架构奠定了理论基础——它本质上是在保持分层方法优势的同时,通过VLM增强了高层语义理解能力。
作者明确指出当前人形系统普遍缺乏"集成的高层模块"来自主选择和排序技能,这一精准的问题定位直接引出了本文的核心贡献。通过将VLM规划监控层与传统控制栈结合,论文填补了这一关键空白,使人形机器人能够执行更长期的定位操作任务。这种从文献中发现问题并以创新方法解决问题的思路,体现了严谨的学术态度和清晰的创新逻辑。
三层架构设计解析
3.1 整体框架与低层跟踪策略
论文提出的三层架构体现了"分而治之"的经典工程哲学,将复杂的人形机器人控制问题分解为相对独立的子问题。如图2所示,系统由低层强化学习跟踪控制器、中层模仿学习技能策略和高层VLM规划监控模块组成,各层专注于不同时间尺度和抽象级别的决策。这种分层设计不仅降低了整体系统的复杂度,还提高了模块化和可扩展性——新技能可以方便地添加到中层库中,而无需重新训练整个系统。
低层跟踪策略采用了经典的actor-critic架构和PPO算法,其核心功能是将中层提供的运动目标转化为可行的关节命令。策略的数学表达为
,其中G包含根运动目标Gₘ(期望的基座线速度和方向)和表达目标Gₑ(目标关节角度和3D关键点位置)。状态空间S包含本体感受信息(关节位置/速度、IMU数据等)和历史状态。策略输出通过PD控制器(200Hz)转化为扭矩命令:
,其中
和
为各关节的PD增益(见表I)。这种设计充分利用了强化学习在连续控制中的优势,同时通过PD控制器保证了执行的平滑性和稳定性。
训练过程中的域随机化(domain randomization)策略尤为关键,包括重力变化(±0.1)、摩擦系数变化([0.6,2.0])、基座质量和质心偏移(分别达5kg和7cm)、推动干扰(横向速度脉冲达0.3m/s)、电机强度变化([0.8,1.2]倍)以及复杂地形等。这种全方位的随机化确保了策略在仿真到现实(sim-to-real)转移时的鲁棒性。奖励函数设计同样精细,结合了跟踪精度项(关节角度、关键点位置、线速度等)和稳定性正则化项(脚部高度、空中时间、碰撞等),权重配置科学合理(见表III和IV)。实验结果显示,仿真中的平均关节角度误差仅为0.0593rad(3.4°),关键点位置误差13.88cm,验证了跟踪策略的有效性。
3.2 中层模仿学习技能
中层模块的核心创新在于将技能获取分解为两个阶段:基于RGB的遥操作演示收集和从这些演示中训练的模仿学习策略。这种设计巧妙地结合了人类专家的高级认知与机器学习的数据驱动优势。遥操作管道采用HybrIK模型从单目RGB图像估计3D人体姿态,然后通过算法1描述的重新定位过程将其适配到机器人形态。这一过程解决了人机形态差异(肢体比例、关节限制等)带来的挑战,使普通RGB相机(无需专用动捕设备)也能生成高质量的演示数据。
模仿学习策略采用Humanoid Imitation Transformer(HIT)架构,其输入
包含本体感受状态和双目视觉,输出为未来关节配置。HIT基于Action Chunking Transformer(ACT),能一次性预测多步未来动作(50个关节目标,25Hz),这种"动作分块"策略显著提高了时间连贯性。辅助的L₂视觉嵌入损失增强了视觉基础和泛化能力。值得注意的是,作者没有使用机器人自带的RealSense相机,而是选用了外部安装的ELP高速RGB相机,这一设计选择确保了稳定的帧率和显式深度信息,对操作任务至关重要。
训练数据方面,论文采用了30个成功的"拿起-放置"任务序列,分割为技能特定数据集(拿起和放置各一个)。这种按技能分离数据的策略虽然增加了标注工作量,但显著提高了单技能的成功率(拿起90%,放置83%)。超参数设置(见表V)也体现了对模型容量与训练稳定性的平衡,如512的隐藏维度、6层Transformer解码器、1e-5的学习率等。整体来看,中层设计成功地将人类演示转化为自主技能,为高层规划提供了可靠的"动作基元"。
3.3 高层VLM规划与监控
高层模块是本文最具创新性的部分,它通过VLM实现了技能序列的自动生成和执行监控。系统明确定义了"技能"(如拿起物体)和"任务"(如拿起并放置物体)的区分,这种抽象层次分离是处理复杂任务的关键。规划问题被形式化为:给定自然语言目标g和初始视觉观察o₀,生成并执行参数化技能序列σ=[π⁽¹⁾,π⁽²⁾,...,π⁽ᴺ⁾]以满足g描述的条件。
系统架构包含两个互补组件:
(1)VLM规划器(P),采用GPT-4o从视觉和文本输入生成结构化技能序列;
(2)VLM技能监控器(M),采用轻量级Gemini-2.0-Flash-Lite模型以约1Hz频率验证技能完成状态。
这种双组件设计既保证了规划的前瞻性,又确保了执行的可靠性,形成了完整的感知-决策-执行闭环。规划器与监控器的频率差异(前者低频率,后者较高频率)反映了不同层次的时间尺度需求,是系统高效运行的关键。
技能库采用类PDDL(Planning Domain Definition Language)的表示方法,为每个技能提供结构化描述(见图3)。例如,"拿起"技能包括描述、前提条件("手是空的"、"物体可抓取"、"物体在表面上")和效果("机器人正拿着物体"、"物体不在原表面")。这种表示平衡了符号规划的严谨性和自然语言的灵活性,使VLM能进行常识推理而无需穷举状态。值得注意的是,作者没有使用传统符号规划器,而是依靠VLM的隐式推理能力处理前提条件和效果,这种方法减少了对精确环境建模的需求,更适合开放世界。
图7-9展示了VLM提示工程的具体实例。系统提示(图7)明确了规划器的角色和输出格式;任务提示(图8)详细描述了可用技能及其前提/效果;图9展示了GPT-4o的典型响应,生成的结构化技能序列包含自然语言描述和验证问题。这种精心设计的提示工程是VLM在实际机器人系统中有效应用的关键,也是论文的重要实践贡献。
实验与讨论
4.1 实验设置与结果
论文选择Unitree G1(29自由度)作为实验平台,配备两个外部ELP RGB相机,在模拟家庭环境的受控场景中进行测试。评估任务设计科学——"拿起-放置"是非预抓取(non-prehensile)操作的典型代表,能有效验证系统的多步协调能力。40次独立试验的规模在机器人实物实验中已属充分,73%的整体成功率(完整序列)证明了方法的有效性。
故障分析尤其深入,作者将失败归为三类(按频率排序):
(1)技能策略失败(主要发生在抓取阶段,因物体位置超出训练分布);
(2)VLM执行监控失败(因细微位置不准确或视觉线索模糊而过早判定完成);
(3)VLM规划失败(偶尔出现错误接地问题)。
这种细致的故障分类不仅验证了系统的鲁棒性,也为未来改进指明了方向。定性评估还发现,连续执行50步动作块会导致轻微位置重置,建议在块间添加平滑/混合函数以提高运动流畅性——这种从实验现象到具体改进建议的推导,体现了作者严谨的工程思维。
4.2 讨论与未来方向
论文将三层架构与两种主流方法进行了对比:
(1)依赖预定义技能开环执行的传统人形系统;
(2)需要大规模配对数据且难解释的端到端VLA方法。
前者缺乏适应性,后者难以调试,而本文的"规划-监控"设计兼具闭环推理和可解释性优势。与严格符号化的TAMP框架相比,系统的自然语言技能描述简化了新行为的集成,降低了领域专业知识需求。这些对比充分论证了论文方法在技术路线上的优越性。
作者诚实地指出了三个主要失败模式:
(1)部分遮挡或OOD物体姿态导致的技能策略偏移;
(2)规划器错误接地导致的冗余步骤;
(3)监控器对边缘情况(如袋子放在桌子边缘)的误判。
这些分析展示了学术研究的客观态度。系统局限也被明确指出:任务范围局限于桌面操作;1Hz监控频率仅适用于审慎动作;技能库有待扩展。这种对局限性的清晰认识,反而增强了研究的可信度。
未来工作提出了三个有前景的方向:
(1)通过VLM监控实现错误检测和自适应重新规划;
(2)用CLIP等模型增强语义调节;
(3)扩展技能库(如双手操作和工具使用)。
这些方向既延续了当前研究的优势,又瞄准了更复杂的长期任务,形成了连贯的研究脉络。特别是将故障检测与重新规划结合的提议,有望将系统成功率提升到新高度。
结论与附录
结论部分凝练地总结了研究贡献:
(1)新颖的分层VLM规划监控框架;
(2)在真人形机器人上验证的集成系统。
论文强调的"模块化、可解释性和适应性"三大优势,正是机器人系统走向实用化的关键。通过将VLM与分层控制结合,这项工作为人形机器人在动态人类环境中的自主操作开辟了新途径。
附录提供了宝贵的实现细节:低层策略的PD增益(表I)、PPO超参数(表II)、奖励函数细节(表III-IV)、模仿学习超参数(表V)等,为研究复现提供了完整蓝图。特别是算法1描述的重新定位过程和图5的遥操作架构,揭示了如何将人体运动迁移到人形机器人的关键技术。图6的HybrIK姿态估计示例和图7-9的VLM提示实例,则展示了关键组件的实际运作方式。这些详实的补充材料大大增强了论文的工程价值和可复现性。
总体而言,这篇论文提出的三层架构和VLM规划监控思想,不仅解决了人形机器人多步操作的具体问题,也为更广泛的机器人自主性研究提供了新思路。论文平衡理论推导与工程实践的风格,以及诚实讨论局限性的态度,都值得后续研究借鉴。随着技能库的扩展和监控精度的提高,这一框架有望成为人形机器人复杂任务处理的通用范式。