编辑:陈萍萍的公主@一点人工一点智能
论文链接:https://arxiv.org/pdf/2502.20396
项目链接:https://toruowo.github.io/recipe/
引言
1.1 研究背景与目标
本文聚焦于通过**Sim-to-Real强化学习(RL)**实现仿人机器人基于视觉的灵巧操作任务。灵巧操作(如抓取、搬运、双手交接)是机器人领域长期以来的技术难点,传统方法依赖人工编程或示教,难以适应复杂多变的物体属性和动态环境。论文提出一种系统化方法,通过解决环境建模、奖励设计、策略学习与感知迁移四大挑战,构建了一个可扩展的Sim-to-Real框架。其核心目标是通过模拟环境中的高效训练,将策略无缝迁移至真实硬件,实现对多样化物体的鲁棒操作。
1.2 现有研究的局限性
当前RL在灵巧操作中的应用存在以下瓶颈:
· 环境建模:真实与模拟环境的动力学差异(如摩擦、质量分布)导致策略迁移困难;
· 奖励设计:接触丰富的长视界任务难以通过手工设计奖励函数有效引导学习;
· 样本效率:高维动作空间(如多指手控制)导致探索效率低下;
· 感知泛化:视觉输入的Sim-to-Real差距显著,尤其是物体几何与材质多样性带来的挑战。
论文指出,现有工作多针对单一任务或硬件进行优化,缺乏通用性。例如,Chen等[9]依赖人类动作捕捉数据控制手腕,而非从零学习全手-臂协同控制。相比之下,本文首次实现了基于视觉的多指手仿人机器人策略的Sim-to-Real迁移,并在任务泛化性上取得突破。
核心挑战及应对策略
2.1 环境建模
挑战:仿人机器人动力学复杂(如多连杆结构、欠驱动关节),传统手动调整URDF参数耗时且易出错。此外,物体物理属性(如质量、摩擦系数)的多样性加剧了建模难度。
解决方案:
1)自动化参数搜索:提出“Autotune模块”(算法III-B),通过并行化仿真环境生成与参数采样,最小化模拟与真实硬件的跟踪误差。具体流程为:
· 初始化参数空间(基于厂商模型);
· 生成多组随机参数组合并创建仿真环境;
· 执行相同的关节目标轨迹,计算模拟与真实硬件的均方误差(MSE);
· 选择最优参数集,实现快速校准(<4分钟)。
2)欠驱动关节建模:将欠驱动关节角度建模为驱动关节的线性函数qu=k·qa+b,并将参数k,b纳入自动搜索范围,提升模型保真度。
具体而言,该调优模块首先基于制造商提供的机器人模型文件初始化参数空间,随后创建多个模拟环境以随机采样参数组合。接着,它执行一系列校准动作序列,同时在真实机器人硬件和所有模拟环境中并行运行。通过比较每个模拟环境与真实机器人在跟随相同关节目标时的跟踪误差,模块选择最小化跟踪性能均方误差的参数集。这种方法消除了迭代手动调整的需求,只需在真实机器人上进行一组校准运行即可自动优化传统上难以调节的URDF参数。此外,对于对象建模,本文采用了近似的方法,即将对象简化为圆柱体等基本形状,并通过随机化参数生成。这种做法已被证明足以支持可转移至现实世界的灵巧操作策略的学习,显示了其在简化复杂对象建模方面的有效性。
2.2 奖励设计
在标准强化学习框架中,奖励函数作为界定代理行为的关键元素,其重要性不言而喻。然而,随着任务复杂性的增加,特别是涉及多指手灵巧操作时,奖励设计变得尤为棘手,因为不同的接触模式和对象几何形状增加了难度。为应对这一挑战,作者提出了一种将操作任务视为接触目标和对象目标相结合的设计方案。例如,在双手交接任务中,可以将其拆解为一只手接触对象、对象被提升到另一只手附近、另一只手接触对象直至最终位置等多个步骤。每一步骤的目标既可以是对手指到理想接触点的距离进行惩罚,也可以是对对象当前状态与目标状态之间距离的惩罚。特别地,作者引入了一种基于关键点的新技术,通过程序化地在对象表面生成“接触贴纸”,代表潜在的理想接触点,以此为基础定义接触目标的奖励公式。
具体来说,接触目标的奖励rcontact可以通过以下公式计算:
其中,XL和XR分别代表左、右手接触标记的位置,FL和FR是左右手指尖的位置,
和
是缩放超参数,而d(A, x)是定义为
的距离函数。这种方法通过引入接触贴纸简化了接触目标的指定过程,使其更加直观且易于实现。此外,通过对不同模拟资产的应用效果进行可视化展示,进一步验证了该方法的有效性。通过这种方式,即使是长时间、高度互动的操作任务,如双手交接,也能从头开始有效地学习,展示了其在提高灵巧操作任务奖励设计灵活性方面的潜力。
2.3 策略学习
挑战:在处理高维度空间探索时,尤其是在配备多指手的人形机器人上,由于样本复杂性和奖励稀疏性,策略学习可能会消耗大量时间,即便是在有良好定义的奖励函数的情况下也是如此。
解决方案:
1)任务感知的初始姿态:通过收集来自人类的任务意识手势数据,即让任何双手机械手的遥操作系统连接到所选模拟器,收集包括对象姿态和机器人关节位置在内的状态信息,并在模拟中随机抽样作为任务初始状态,可以大幅减少探索阶段的时间需求。不同于以往要求完整演示轨迹的方法,这里只需要操作者围绕任务目标进行“玩耍”,即可有效收集必要的环境状态数据,从而显著缩短遥操作所需的时间。
2)分治蒸馏(Divide-and-Conquer Distillation):通过将复杂任务分解为更简单的子任务,再将专门针对各子任务训练的策略蒸馏成一个全面的策略,来克服稀疏奖励环境下探索的难题。
例如,一个多对象操纵任务可以被分解为多个单对象操纵任务。这种策略不仅降低了探索的难度,还允许根据子任务策略的最优性过滤轨迹数据,仅保留高质量样本用于训练。这样一来,强化学习实际上更接近于从示范中学习,其中子任务策略充当了任务数据收集的远程操作员角色,而全面策略则作为一个基于精选数据训练的集中模型。这种方法灵活地解决了探索过程中遇到的主要障碍,提高了学习效率,同时保证了最终策略的质量,使得原本难以解决的复杂任务得以高效学习和实现。
实验表明,子任务划分的粒度显著影响性能。例如,在抓取任务中,按物体形状分组(“shape”)比混合分组(“mix”)更高效(图4右),而单物体策略(“single”)虽样本效率最高,但Sim-to-Real迁移成功率较低(40% vs. 混合策略90%)。
2.4 视觉感知迁移
将模拟环境中学习到的策略成功转移到现实世界是视觉基础灵巧操作的一大挑战,主要源于动力学和视觉感知之间的模拟现实差距。为了缩小这种差距,作者提出了两种关键技术:混合对象表示法和域随机化。
首先,对象感知在灵巧操作中至关重要,因为它不可避免地涉及到对象交互。前人的研究表明,成功实现模拟到现实转移的操控策略采用了从三维对象位置到RGB图像等多种对象表示法。然而,更高维度的表示虽然提供了更多关于对象的信息,但也扩大了模拟与现实之间的差距,导致学习策略更难转移。
反之,较低维度的表示因信息量有限,难以学到最优策略。因此,作者建议结合使用低维三维对象位置和高维深度图像的对象表示法,以平衡这两者间的权衡。尤其值得注意的是,三维对象位置是从第三人称视角相机获取的,确保对象始终处于视野范围内并且其噪声位置可以持续追踪。深度图像则补充了有关对象几何形状的信息。
此外,为了确保可靠的模拟到现实转移,作者还应用了一系列广泛的域随机化技术,涵盖了动力学和感知方面。通过这种方法,不仅可以适应不同形态的机器人硬件,还能增强策略在现实世界中的鲁棒性。
总之,通过上述措施,作者有效地缩小了模拟与现实之间的差距,使得基于视觉的灵巧操作策略能够在模拟环境中得到充分训练,并顺利迁移到实际机器人系统中,实现了理论与实践的完美结合。这些技术共同作用,不仅提升了策略学习的效率和效果,也为未来相关领域的研究提供了宝贵的参考依据。
实验设计与结果验证
3.1 实验设置
1)硬件平台:Fourier GRI仿人机器人(双臂+多指手),对比Inspire手验证跨硬件泛化。
2)任务定义:
· 抓取-到达(Grasp-and-Reach):单手机械臂抓取并移动物体;
· 箱体搬运(Box Lift):双手协作搬运大尺寸物体;
· 双手交接(Bimanual Handover):跨桌面物体传递。
3)感知系统:第三视角相机(物体跟踪)+ 头戴深度相机(几何感知),5Hz控制频率。
3.2 关键实验结果
1)环境建模有效性(表I):
自动校准(最低MSE)使抓取成功率从0%提升至80%,验证了参数搜索的必要性。
简单几何体(立方体、球体)比复杂形状训练更快(图4左),且能泛化至未见物体。
2)奖励设计影响(图5):
接触标记的位置直接影响策略行为。例如,箱体底部边缘标记促使策略采用稳固握持。
3)策略学习效率(表II):
任务感知初始化使双手交接策略成功率从0%提升至30%,显著降低探索难度。
4)感知迁移对比(表III):
深度+位置策略在搬运任务中成功率100%,纯深度策略为0%,凸显混合表征优势。
3.3 系统性能与鲁棒性
· 任务成功率:抓取62.3%、搬运80%、交接52.5%;
· 泛化能力:策略可零样本适应未见物体(如不同形状、质量的餐具);
· 抗干扰性:施加推力、拉力等扰动后,策略仍能恢复稳定操作(图6)。
讨论与未来方向
4.1 局限性
· 硬件限制:现有多指手的自由度(6-7个)远低于人类(27个),制约了操作灵活性;
· 动力学差距:仅通过朴素域随机化缓解,未引入更高级的动力学适配方法;
· 任务复杂度:当前任务仍为原子操作,长视界组合任务(如装配)尚未验证。
4.2 未来工作
· 奖励自动化:结合人类示教数据或语言指导,进一步减少人工设计;
· 感知增强:探索神经辐射场(NeRF)等三维重建技术,提升几何理解;
· 硬件协同设计:开发更具仿生性的多指手,结合策略优化实现硬件-算法共进化。
结论
本文通过系统化解决环境建模、奖励设计、策略学习与感知迁移四大挑战,构建了一个可扩展的Sim-to-Real框架,首次实现了仿人机器人多指手视觉灵巧操作的策略迁移。
实验表明,该方法在任务成功率、泛化性与抗干扰性上均达到先进水平,为通用机器人操作系统的开发提供了重要参考。未来工作需进一步突破硬件限制与长视界任务规划,推动机器人灵巧操作迈向人类水平。