编辑:陈萍萍的公主@一点人工一点智能
论文地址:https://graspnet.net/anydexgrasp/assets/files/AnyDexGrasp.pdf
项目地址:https://graspnet.net/anydexgrasp/
摘要和引言部分解析
本文提出了一种高效的学习方法,旨在通过最少的数据实现灵巧抓取。不同于传统的需要数百万次抓取标签的方法,该研究只需几百次尝试即可在40个训练对象上取得优异性能。这一方法分为两个阶段:首先,利用一个通用模型将场景几何映射到中间接触中心抓取表示,这种表示不依赖于特定的机械手;接着,针对每一种机械手,通过现实世界的试错训练出独特的抓取决策模型,将这些表示转化为最终的抓取姿势。
这种方法展示了在真实世界杂乱环境中对三种不同机械手的成功率达到了75%-95%,并且随着训练对象数量的增加,成功率提升到了80%-98%。其适应性使得这项技术在人形机器人、假肢及其他领域中展现了广阔的应用前景。该研究不仅推动了机器人学的进步,也为促进具身智能的发展提供了新的思路。正如引言所述,抓取作为预紧式操作的基本问题,在人类进化过程中扮演了重要角色,精确握持能力的获得被认为是工具使用和人类进化的关键因素之一。
核心贡献可总结为以下三点:
1)接触中心抓取表示(CGR):提出一种与机械手无关的中间表示,将场景几何信息映射到接触点与法线等关键特征,具有SE(3)不变性。
2)两阶段学习框架:分离表示学习与抓取决策,前者通过大规模标注数据训练,后者通过少量真实世界试错数据快速适应不同机械手。
3)高效泛化能力:实验验证了该方法在少样本训练下的强泛化性能,尤其在对抗性物体与复杂场景中的表现优于传统方法。
方法论概述
该论文的核心在于提出了一个两阶段的方法来实现灵巧抓取。第一阶段是构建一个通用模型,用于将场景几何信息转换为接触中心抓取表示(Contact-centric Grasp Representation, CGR)。这个表示法独立于具体的机械手设计,因此能够适用于各种不同的机械手类型。具体来说,CGR包括距离
和角度
,它们描述了手指在不同方向上的位置和姿态。第二阶段则涉及到开发针对特定机械手的抓取决策模型。这一步骤通过实际试验中的反馈进行优化,确保模型能够准确地从CGR中推断出有效的抓取动作。
为了实现上述目标,研究人员采用了深度神经网络(Deep Neural Networks, DNNs)来处理复杂的输入数据,并生成可靠的抓取评分。这些评分反映了给定抓取候选方案成功的概率。每个抓取决策子模型由七层全连接层构成,其间还嵌入了一个跳连(skip connection),以增强模型的鲁棒性和稳定性。整个架构的设计充分考虑了计算效率和精度之间的平衡,从而能够在有限的数据集上快速收敛并达到较高的性能水平。此外,该方法还在大规模模拟数据集上进行了验证,证明了其在多样性和复杂度方面的优越表现。
方法详解
3.1 CGR到抓取姿态的映射
当我们将CGR映射到抓取姿态时,首先要计算CGR的对立面抓取表示。给定一个CGR:
对立面抓取表示被定义为:
其中
表示夹爪开口宽度,而
则是衡量对立面抓取质量的指标。一旦获得了s,我们选择具有最高对立面抓取得分的
和 j:
接下来,我们将对应于j*的旋转
和沿接近方向的平移添加到R3d和t3d 中:
这里
是绕z轴旋转矩阵,d(·)是将节段索引映射为其实际深度的函数,z是单位向量。更新后的旋转Rg和平移tg就构成了对应的6D抓取姿态。
CGR的优势在于:
1)局部性:仅关注抓取接触区域的几何,避免全局建模的复杂性。
2)不变性:通过局部坐标系变换(Canonicalization)实现SE(3)不变性,提升泛化能力。
3)紧凑性:将高维点云压缩为低维向量,简化后续决策模型的输入。
3.2 抓取决策模型细节
每一个抓取决策子模型都是通过神经网络学习得到的,它接收一个接触中心抓取表示作为输入,并输出一个介于0到1之间的分数,指示相应的抓取候选是否可能成功。输入大小为2×5×48=480,包含沿着48个平面旋转的5个节段的距离和法线角度。网络结构包括七个全连接层,并且加入了跳连以提高鲁棒性。这种设计不仅提高了模型的泛化能力,还能有效应对数据稀缺的问题。
在实际应用中,该模型能够根据少量的训练样本迅速调整自身参数,从而在面对新物体时依然保持较高的抓取成功率。此外,通过对多个机械手进行个性化训练,该方法可以灵活适应不同类型的手部结构,进一步增强了其实用价值。例如,在实验中,研究人员发现即便是在仅有几百次抓取尝试的情况下,模型也能显著改善抓取效果,显示出其卓越的学习效率和适应性。
前期工作及改进点
先前的研究如GraspNet-baseline (Fang et al., 2020b) 和 GSNet (Wang et al., 2021) 已经探索了从部分视图点云预测夹爪开口宽度和对立面得分的方法,这些研究通常采用离散化旋转和平移来简化连续空间中的问题。然而,这种方法仍然面临组合爆炸的问题,导致大量的候选抓取姿态需要评估。为此,Wang等人引入了一个称为“抓取度”(graspness)的度量标准,作为一种启发式方法,偏向于那些更有可能生成成功抓取姿态的t3d和R3d值。该度量包括点级抓取度和视角级抓取度,分别通过统计高分对立面抓取姿态的比例来计算。
在此基础上,本文提出了一个新的抓取度评分,专门用于评估不同机械手中的后续抓取适用性。对于给定点
,当
较小时,意味着表面法线ni与接触方向相反(假设机械手指朝向局部坐标系的极点方向),机械手能更好地接触物体。此外,具有大量高分对立面抓取姿态的几何形状往往更适合后续抓取。通过这种方式,本研究不仅扩展了现有方法的应用范围,还提高了其在多样化环境下的适应性和可靠性。这一改进为未来更加智能化的机器人操作奠定了坚实基础。
实验设计与结果分析
5.1 实验设置
· 硬件平台:UR5机械臂+RealSense D415相机,测试三种机械手(DH-3三指、Allegro四指、Inspire五指)。
· 数据集:训练集含40-144个物体,测试集包含150个未见物体(日常物品与对抗性物体)。
· 评估指标:抓取成功率、训练数据效率、抓取类型多样性。
5.2 结果与讨论
实验结果表明,AnyDexGrasp 在多种机械手上实现了显著的抓取成功率。特别是在真实世界杂乱环境中,对于超过150个新型物体,其成功率达到了75%-95%,并且随着更多训练对象的加入,这一比例上升至80%-98%。值得注意的是,该方法不仅在性能上表现出色,还在数据效率方面取得了重大突破。以往需要成千上万次抓取尝试才能达到的效果,现在仅需数百次尝试即可实现,极大地缩短了学习周期并降低了资源消耗。
此外,该研究还探讨了不同机械手之间的差异及其对抓取成功率的影响。通过个性化的训练和优化,AnyDexGrasp 能够根据不同机械手的特点调整其策略,从而在多变的任务环境中保持高效的抓取能力。这一点尤其重要,因为不同应用场景对机械手的要求各不相同,如人形机器人需要高度灵活的操作能力,而工业自动化则更注重稳定性和重复精度。总之,AnyDexGrasp 展现了强大的适应性和可扩展性,为未来的机器人研究和应用开辟了新的道路。