在机器人研究的前沿领域,纽约大学和加州大学伯克利分校的研究团队刚刚发布了一项突破性成果。2025年5月26日发表于arXiv的论文《EgoZero: Robot Learning from Smart Glasses》,由Vincent Liu、Ademi Adeniji、Haotian Zhan(三位第一作者共同贡献)、Raunaq Bhirangi、Pieter Abbeel和Lerrel Pinto合作完成,向我们展示了一种全新的机器人学习方法。这项研究的成果可以在项目官方网站https://egozero-robot.github.io上查看,包括代码实现和演示视频。
一、现实世界中的机器人学习困境
想象一下,你刚买了一台智能音箱,只需简单设置就能识别各种口音和语调的语音指令;或者一款新手机,能够精准识别照片中的人脸和物体。这些人工智能技术已经变得如此普遍和高效,但为什么我们家中的机器人助手仍然显得如此笨拙和有限呢?
答案就藏在数据的获取方式上。语言模型可以从互联网上海量的文本中学习,图像识别系统可以通过数以百万计的照片训练自己,但机器人却面临着一个根本性的瓶颈:它们需要在真实物理世界中收集数据,而这种数据收集过程既昂贵又耗时。
研究团队指出,这个瓶颈并非源于现实世界中缺乏数据——恰恰相反,人类每天都在执行各种精细的操作任务,这些都是潜在的宝贵学习资源。真正的挑战在于如何有效地捕捉和表示这些人类行为,并将其转化为机器人可以学习的形式。
过去的研究尝试过使用人类示范作为监督信号来训练机器人,但都面临各种限制:需要额外的穿戴设备、需要机器人训练数据、需要多相机校准、需要在线微调、只能产生低精度的基于可负担性的策略,或者需要特殊的数据处理技巧来跨越人机形态差距。其他基于视觉的学习方法则依赖于大规模的多机器人数据集进行预训练,但尚未展示纯粹从人类数据实现零样本迁移的能力。
二、EgoZero:一种全新的机器人学习范式
EgoZero的核心理念可以用一个简单的问题来概括:机器人能否仅仅通过观察人类在自然环境中的行为来学习操作技能,而无需任何机器人自身的训练数据?
这个看似简单的问题背后隐藏着复杂的技术挑战。想象一下,你在教一个从未见过西红柿的孩子如何切西红柿。你不仅需要展示切的动作,还需要让孩子理解什么是西红柿、如何握刀、用多大的力度等等。而对于机器人来说,这个问题更加复杂,因为机器人的"手"和人类的手完全不同,它的"眼睛"(摄像头)也与人类视角有很大差异。
EgoZero通过一种轻量级的框架解决了这个问题,它允许机器人直接从使用Project Aria智能眼镜捕获的第一人称人类示范中学习操作策略。这种方法完全消除了对机器人远程操作、校准或额外穿戴设备的需求,让人类可以自由地与世界互动,同时仍能为机器人提供有效的监督信号。
受到之前研究的启发,EgoZero通过将状态和动作表示为紧凑的点集来克服形态差距。这种基于点的表示同时统一了人类和机器人的分布,提高了策略学习的样本效率和可解释性,并能够泛化到新的视觉场景和形态。
然而,在野外收集第一人称数据时,研究者无法使用之前研究中的多相机校准设置来精确计算点表示。因此,EgoZero引入了新方法,从原始视觉和测距输入中精确导出状态和动作表示。
三、技术创新:从人类动作到机器人学习的桥梁
要理解EgoZero的技术创新,我们可以将其想象为一种翻译系统,它将"人类语言"(动作、视角和意图)翻译成"机器人语言"(可执行的机械动作)。这种翻译过程分为几个关键步骤:
首先,研究团队使用Project Aria智能眼镜记录人类示范。这种眼镜配备了多种传感器、SDK和额外的机器感知服务(MPS)。研究中使用了鱼眼RGB相机和两个SLAM相机进行数据捕获,并从MPS获取准确的在线6DoF手部姿势、相机内参和相机外参。每次记录包含RGB图像、6DoF手掌姿势和6DoF相机外参。
接下来,研究者定义了与形态无关的状态和动作空间。对于动作空间,他们将其定义为3D端点自我中心坐标和抓取闭合的连接空间。由于Aria只提供手部姿势而没有端点信息,他们使用HaMeR模型来计算21关键点自我中心手部模型。虽然HaMeR在相机框架中的端点预测不准确,但在手部框架中的预测更可靠。因此,他们将HaMeR的局部手部变形与Aria的自我中心手部信息组合起来。
对于状态空间,他们将其定义为自我中心物体点集和机器人端点动作的连接空间。提取物体的点表示需要从多个相机进行三角测量或使用深度进行反投影,但Project Aria眼镜无法提供这两种功能。即使最先进的单目度量深度模型在有接地条件的情况下也不一致且不准确。
因此,研究者依靠Aria的精确SLAM外参和CoTracker3来对整个示范轨迹进行2D点三角测量。这假设物体在抓取前是静止的,相机有足够的移动,环境不是随机的。他们使用Grounding DINO和DIFT将专家标记的UV坐标映射到起始帧上,并使用CoTracker3跟踪这些点,以获得相机位姿和UV坐标轨迹。然后通过优化最小化每一帧中的像素重投影误差,同时添加软深度惩罚以在存在多个解决方案时偏向更近的解决方案。
在获取了这些形态无关的状态和动作表示后,他们使用行为克隆方法训练了一个基于Transformer的闭环策略。该策略被建模为正态分布的均值,并通过最小化负对数似然函数进行训练。他们还对策略进行了各种增强,包括历史缓冲区输入、时间聚合动作分块和随机3D变换,这些对于野外迁移是必要的。
在推理阶段,他们使用Grounding DINO和DIFT来裁剪和映射专家标记的UV坐标到起始帧上,并使用iPhone表示静止的自我中心视图,因为它允许使用精确的深度将点反投影到3D空间。通过在推理开始时校准iPhone到机器人的变换,策略的3D预测被映射到机器人框架中。
四、实验验证:从人类示范到机器人执行
EgoZero的有效性通过在Franka Panda抓取机器人上进行的一系列实验得到了验证。研究团队设计了七种不同的操作任务来测试他们的方法:
1. 打开烤箱门:机器人抓住并拉下烤箱门的把手,每次评估时烤箱的位置都会变化。 2. 将面包放在盘子上:机器人从桌子上拿起一片可变形的面包并将其放在盘子上,面包的位置在每次评估时都会变化。 3. 用扫帚清扫板子:机器人从篮子里拿起一把迷你扫帚并清扫木板,扫帚、篮子和板子的位置在每次评估时都会变化。 4. 擦板子:机器人从桌子上拿起白板擦并用它擦白板,擦子和板子的位置在每次评估时都会变化。 5. 将水果分类到碗中:机器人被提示拿起柠檬、酸橙和蜜橘中的一种,并将其放入碗中,水果和碗的位置在每次评估时都会变化。 6. 折毛巾:机器人抬起毛巾的一端(靠近相机的一端)并将其折叠到毛巾的另一端上,毛巾的位置在每次评估时都会变化。 7. 将书插入书架:机器人拿起一本书并将其插入书架,书和书架的位置在每次评估时都会变化。
对于每项任务,研究团队收集了100个示范,每个示范大约需要12秒,总共大约20分钟的数据收集时间。他们在示范环境中变化了物体位置,但在推理时环境中没有收集任何数据。
实验结果令人印象深刻。EgoZero在七个操作任务上实现了平均70%的零样本成功率,证明了从野外人类数据到真实世界机器人执行的有效迁移。更令人惊讶的是,这一成功是在完全没有机器人训练数据的情况下实现的。
五、与基线方法的比较及消融研究
为了证明EgoZero特定公式的有效性,研究团队将其与几种基线方法进行了比较,这些方法是从过去的工作中改编的:
1. 从图像学习:他们实现了Baku的变体,该变体从图像输入预测统一动作空间中的动作。由于人类和机器人之间的视觉分布差异很大,很难从人类视频中学习闭环策略并实现零样本机器人迁移。过去的研究只展示了使用Aria眼镜的人类视频作为机器人数据的补充,需要仔细重新规范化人类数据分布。此外,Aria的鱼眼镜头通过在空间和时间上非均匀地扭曲2D-3D对应关系,加剧了这个问题。从类似的机器人和相机分布产生的丰富视觉数据中学习3D分布更可靠。
2. 从可负担性学习:一些研究探索了在没有机器人数据的情况下从第一人称人类视频中学习,基于可负担性的设置。通常,这是通过依赖预训练的抓取模型生成的开环轨迹来完成的。他们通过预测类似于之前研究的本体感知标志物来消融他们的闭环公式——具体来说,是初始和最终抓取,在推理过程中执行它们之间的线性轨迹。虽然从可负担性学习策略在3D表示中很简单,但它在需要复杂非线性运动的任务上失败了,比如他们的"将面包放在盘子上"和"擦板子"任务。在机器人上部署时,这些策略表现出不正确的行为:机器人试图将面包拖到盘子上,并用擦子推板子。在其他部分成功的任务中,策略因生成过于简单的轨迹而失败,在执行过程中经常碰到其他物体。这些失败表明,闭环策略对于学习更精确的复杂运动是必要的,即使在不跟踪物体状态的情况下也是如此。
消融研究进一步探索了使野外人类数据零样本迁移成为可能的关键设计组件:
1. 3D增强:虽然之前的研究已经探索过3D增强,但他们表明这对于野外零样本迁移确实是必要的。在统一的3D状态-动作空间中,策略学习了密集的3D到3D映射。没有3D增强,策略学习的3D到3D映射体积更小更稀疏。因此,策略在3D位置之间的插值效果不佳,对新位置的鲁棒性较差。因此,当给定新的自我中心视图时,它往往处于分布外状态。他们证明,当使用3D增强训练时,他们的策略可以泛化到远远超出其训练数据体积的物体配置。虽然他们的策略学习框架类似于之前的研究,但这些工作不需要3D增强来展示良好的成功率,这表明在自我中心数据上学习鲁棒策略引入了学习可泛化表示的额外复杂性。
2. 单目深度估计:Aria眼镜无法提供提取地面真实深度信息的方法:它既不能可靠地三角测量物体(因为所有相机之间的重叠视野有限),也没有内置的激光雷达或深度传感器。因此,他们通过相机轨迹上的三角测量来定位物体以获取其3D信息。为了证明单目度量深度模型不是一个可行的选项,他们用从度量深度模型反投影的方法消融了他们的三角测量方法。他们观察到,即使在场景中使用多个Aruco标签进行校准,最好的度量深度模型也会产生>5cm的误差。这表明深度图在空间上是不均匀扭曲的,可能是由Aria的鱼眼造成的畸变。所有使用估计深度训练的策略都毫无例外地失败了。
研究还探讨了零样本泛化的多个维度:
1. 物体姿态泛化:在数据收集和机器人评估中,他们改变了物体的姿态。如果有多个物体,他们也改变了它们相对于彼此的位置。他们观察到,使用具有3D状态表示的对应性编码了物体的姿态,并允许他们的策略从野外数据进行泛化。他们注意到,他们的人类示范中的空间多样性远大于机器人在其工作空间中可以访问的多样性。这种多样性,结合3D增强,使策略在更大的3D体积中学习了更一般的解决方案,从而实现了对机器人的零样本迁移。他们将物体姿态的多样性限制在人类会现实地操作的范围内(例如,烤箱门对相机是可见的)。
2. 物体语义泛化:基于先前研究,他们还证明了3D表示允许零样本物体类别泛化。由于他们的训练和推理图像差异很大(Aria鱼眼与iPhone针孔),他们引入了Grounding DINO来裁剪图像以提高DIFT的成功率;这不是之前研究实现的,因为他们的相机和背景在训练和推理之间是相同的。由于Grounding DINO是语言条件的,他们只需用物体类别(例如"烤箱")提示它,就可以让它泛化到完全新的物体实例。这种预训练模型的组合将视觉多样性压缩成几何抽象,允许EgoZero在自我中心设置中跨视觉分布进行泛化。
3. 相机泛化:基于视觉的策略最大的限制因素之一是,学习对小的个别像素变化的不变性需要大量数据。例如,之前的研究在10,000多小时的跨实施数据上进行训练,但当推理相机(和端点)与用于收集机器人训练数据的相机不同时,其零样本性能显著降低。为了解决这个问题,其他研究使用Aria眼镜进行人类数据收集、机器人数据收集和策略推理,但仍然需要几个小时的人类和机器人数据以及仔细的重新规范化才能达到良好的成功率。由于EgoZero从3D点集学习策略,EgoZero完全与相机无关。他们在所有实验中通过在推理中使用iPhone证明了这一点。
4. 人类尺度泛化:对于每项任务,他们在2-3个不同的环境中收集数据,在不同高度的桌面上,有各种背景干扰物,有多个独特的示范者。他们执行示范时,有的移动,有的站立不动,有的坐下。人类示范者的差异在训练数据中提供了额外的多样性。这些在高度和抓握方面的差异仍然被编码在同一个统一的表示空间中。
六、EgoZero的局限性与未来发展方向
尽管EgoZero取得了令人印象深刻的成果,研究团队也坦率地承认了当前方法的几个局限性:
1. 3D表示的局限性:推理过程中最大的错误来源是对应模型DIFT。对应通过对状态空间进行排序来编码姿态,使策略学习变得样本高效。在更大的数据规模下,姿态信息可以直接从密集的无序几何信息中学习(例如,使用接地分割模型)。对应错误可能是一个更普遍的限制的症状:策略受其3D点输入的准确性上限的约束。虽然使用3D点可以简化策略学习,但它没有信息来纠正3D测量误差。
2. 三角测量的局限性:他们依赖运动结构来定位Aria的抓取前轨迹上的物体。虽然当相机运动有限时,这种算法的鲁棒性较差,但他们发现自然任务演示的相机运动通常是足够的。此外,三角测量需要静止的物体,这意味着他们无法跟踪物体。未来,立体相机或廉价的激光雷达可以消除这些约束,并允许在随机设置中进行闭环策略学习。研究团队希望随着硬件设计的改进,深度估计将变得更加容易。
3. 手部模型的局限性:在这项工作中,他们使用HaMeR和Aria的手部姿势来提取完整的动作空间,这两者都引入了轻微的不准确性。Aria的手部姿势并不总是预测手上的相同位置,而HaMeR在手上预测不一致的错误旋转和平移分量。即使精心调整了公式,动作标签仍然包含1-2厘米的误差,阻止策略解决高精度任务。研究团队希望手部估计方法将随着更好的研究和硬件设计变得更加可靠。
七、结论:迈向以人为中心的机器人技术
总的来说,EgoZero代表了机器人学习领域的一个重要突破。它不仅展示了从第一人称视角的人类数据到机器人执行的有效零样本迁移,而且为解决机器人学习中的数据瓶颈提供了一种可行的方法。
这项研究的核心贡献可以总结为以下几点:
1. EgoZero策略在七个任务上实现了70%的零样本成功率,仅使用Project Aria智能眼镜记录的人类数据进行训练。据研究团队所知,这是第一个成功将野外人类数据转化为闭环策略的方法,无需任何机器人数据。
2. EgoZero策略仅使用100个训练示范(每项任务20分钟的数据收集)就展示了强大的零样本泛化特性,证明了从统一3D状态-动作表示中学习的鲁棒性、可转移性和数据效率。
3. 当评估新的相机视角、空间配置和完全超出分布的物体实例时,EgoZero实现了高成功率——验证了他们提出的从物体中提取精确3D表示的方法,即使在没有精确深度测量的情况下也是如此。
更广泛地说,这项研究表明,野外人类数据可以作为真实世界机器人学习的可扩展基础,为机器人技术提供丰富、多样和自然的训练数据铺平了道路。虽然EgoZero代表了如何从人类数据实现强大零样本迁移的初步概念证明,但研究团队也承认了一些限制,其中许多他们希望随着硬件和机器人学习方法的共同改进而得到解决。
归根结底,人类数据在其可扩展性和形态完整性方面具有巨大潜力。EgoZero提供了一个框架,未来的研究可以在此基础上扩展到完全灵巧和双手设置。这项工作为一种更以人为中心、可扩展和丰富的机器人技术主题提供了可能性,使机器人能够从人类在日常生活中自然执行的各种任务中学习。
领取专属 10元无门槛券
私享最新 技术干货