文章:Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI
作者:Yang Liu, Weixing Chen, Yongjie Bai, Jingzhou Luo, Xinshuai Song, Kaixuan Jiang, Zhida Li, Ganlong Zhao, Junyi Lin, Guanbin Li, Liang Lin.
欢迎各位加入知识星球,获取PDF论文,欢迎转发朋友圈。文章仅做学术分享,如有侵权联系删文。
公众号致力于点云处理,SLAM,三维视觉,高精地图等领域相关内容的干货分享,欢迎各位加入,有兴趣的可联系dianyunpcl@163.com。文章未申请原创,未经过本人允许请勿转载,有意转载联系微信920177957。
摘要
具身人工智能(Embodied AI)是实现通用人工智能(AGI)的关键,同时也是连接网络空间与物理世界的各种应用的基础。近年来多模态大模型(MLMs)和世界模型(WMs)的出现因其卓越的感知、交互和推理能力而引起了广泛关注,使其成为具身智能体“大脑”的一种有前景的架构。然而,目前针对多模态大模型时代的具身人工智能尚无全面的综述。在这篇综述中对具身人工智能的最新进展进行了全面探讨。首先梳理了具身机器人和模拟器领域的代表性工作,深入了解其研究重点及其局限性。随后分析了四个主要研究目标:1)具身感知,2)具身交互,3)具身智能体,以及4)仿真到现实的适应(sim-to-real adaptation),涵盖了最先进的方法、核心范式以及完整的数据集。此外还探讨了多模态大模型在虚拟和真实具身智能体中的复杂性,强调其在动态数字和物理环境中促进交互的意义。最后总结了具身人工智能领域的挑战与局限,并讨论了其潜在的发展方向。希望这篇综述能够为研究社区提供重要的参考基础,并激发更多创新。
主要贡献
具身人工智能最初是由艾伦·图灵于 1950 年通过具身图灵测试提出的。旨在确定代理是否能够表现出不仅限于解决虚拟环境中的抽象问题的智能,而且还能够应对物理世界的复杂性和不可预测性。网络空间中的代理通常被称为非实体人工智能,而物理空间中的代理则是实体人工智能(表一)。多模态大型模型 (MLM) 的最新进展为实体模型注入了强大的感知、交互和规划能力,从而开发出能够主动与虚拟和物理环境交互的通用实体代理和机器人。因此具身化主体被广泛认为是传销的最佳载体。近期具有代表性的具身化模型有RT-2和 RT-H。然而目前的MLM在长期记忆、理解复杂意图、分解复杂任务等方面的能力还十分有限。
图 1:Google Scholar 搜索结果显示 Embodied AI 相关主题,纵轴和横轴分别表示相关出版物数量和年份。自 2023 年 MLM 突破以来,出版物数量呈指数级增长。
要实现通用人工智能 (AGI),发展具身人工智能是一条根本途径。与 ChatGPT 等对话代理不同,具身人工智能认为,真正的通用人工智能可以通过控制物理实体并与模拟和物理环境交互来实现。我们正站在 AGI 驱动创新的前沿,深入研究具身人工智能领域、揭示其复杂性、评估其当前发展阶段并思考其未来可能遵循的潜在轨迹至关重要。如今具身人工智能涵盖计算机视觉 (CV)、自然语言处理 (NLP) 和机器人技术等各种关键技术,其中最具代表性的是具身感知、具身交互、具身代理和模拟到现实的机器人控制。因此在追求 AGI 的过程中,通过全面的调查来捕捉具身人工智能不断发展的格局势在必行。
表一:无实体人工智能与实体人工智能的比较。
图2. 基于多模态大模型(MLMs)和世界模型(WMs)的具身智能体整体框架。具身智能体以具身世界模型作为其“大脑”。它具有理解虚拟-物理环境的能力,能够主动感知多模态元素。它能够充分理解人类意图,与人类价值观对齐,分解复杂任务,执行精准的动作,并与人类互动,利用知识库和工具。
具身人工智能的发展呈现快速发展态势,引起了研究界的极大关注,被认为是实现 AGI 最可行的途径。Google Scholar 报告了大量具身人工智能出版物,仅 2023 年就发表了约 10,700 篇论文。这相当于平均每天 29 篇论文或每小时一篇以上论文。尽管人们对从 MLM 中获取强大的感知和推理能力有着浓厚的兴趣,但研究界缺乏全面的调查来帮助理清现有的具身人工智能研究、面临的挑战以及未来的研究方向。在 MLM 时代,我们旨在通过对跨网络空间到物理世界的具身人工智能进行系统调查来填补这一空白。我们从不同的角度进行调查,包括具身机器人、模拟器、四个具有代表性的具身任务(视觉主动感知、具身交互、多模态代理和模拟到现实的机器人控制)以及未来的研究方向。相信这次调查将清楚地展示我们所取得的成就,并可以沿着这个新兴但非常有前景的研究方向取得进一步的成就。
本文提出了这项综合调查,涵盖了代表性的具身机器人、模拟器和四个主要研究任务:具身感知、具身交互、具身代理和模拟到现实的机器人控制。主要贡献有三点:首先,它系统地回顾了具身人工智能,包括具身机器人、模拟器和四个主要研究任务:视觉主动感知、具身交互、具身代理和模拟到现实的机器人控制。据我们所知,这是首次从基于 MLM 和 WM 的网络空间和物理空间对齐的角度对具身人工智能进行全面调查,提供了广泛的概述,并对现有研究进行了全面的总结和分类。其次,它研究了具身人工智能的最新进展,对多个模拟器和数据集的当前工作进行了全面的基准测试和讨论。第三,它确定了具身人工智能通用人工智能未来研究的几个研究挑战和潜在方向。
主要内容
具身机器人
具身人工智能与物理环境积极互动,涵盖范围广泛的具身化,包括机器人、智能家电、智能眼镜、自动驾驶汽车等。其中,机器人是最突出的具身化之一。根据应用的不同,机器人被设计成各种形式,以利用其硬件特性完成特定任务,如图4所示。
图4:具现机器人包括定基机器人、四足机器人、人形机器人、轮式机器人、履带式机器人、仿生机器人等。
固定基座机器人:如图 4 (a) 所示,固定基座机器人由于结构紧凑、操作精度高,广泛应用于实验室自动化、教育培训和工业制造。这些机器人具有坚固的底座和结构,可确保操作过程中的稳定性和高精度。它们配备高精度传感器和执行器,精度可达微米级,适合需要高精度和可重复性的任务 。此外,固定基座机器人具有高度可编程性,允许用户根据各种任务场景对其进行调整,例如弗兰卡(Franka Emika panda) 、库卡iiwa(KUKA)和 Sawyer (Rethink Robotics) 。尽管固定基座机器人在很多领域都有着出色的表现,但也存在一定的缺点。首先固定基座的设计限制了它们的操作范围和灵活性,使得它们无法在大范围内移动或调整位置,从而影响它们与人类和其他机器人的协作。其次固定基座机器人通常价格昂贵,需要专业人员进行安装和维护,这增加了它们的初始投资和运营成本。
轮式机器人和履带式机器人:对于移动机器人来说,它们面临的应用场景更加复杂多样。如图 4(b)所示的轮式机器人,以其高效的移动性而闻名,广泛应用于物流、仓储和安全检查。轮式机器人的优点包括结构简单、成本相对较低、能源效率高、能够在平坦表面上快速移动 。这些机器人通常配备高精度传感器,如激光雷达和摄像头,实现自主导航和环境感知,使其在自动化仓库管理和检查任务中非常有效,例如 Kiva 机器人(Kiva Systems )和 Jackal 机器人(Clearpath Robotics) 。然而轮式机器人在复杂地形和恶劣环境下,尤其是在不平坦的地面上,机动性有限,负载能力和机动性也受到一定限制。相比之下,履带式机器人越野能力强、机动性高,在农业、建筑、灾害恢复等领域具有巨大潜力,如图 4(c)所示。履带系统提供更大的地面接触面积,分散机器人的重量,降低在泥沙等软地形中下沉的风险。此外履带式机器人通常配备强大的动力和悬架系统,使其能够在复杂地形上保持稳定性和牵引力 。因此可靠的履带式机器人也用于军事等敏感领域。iRobot PackBot 是一款多功能军用履带式机器人,能够执行侦察、爆炸物处理以及搜索和救援等任务。然而由于履带系统摩擦力较大,履带式机器人往往存在能量效率低的问题,而且在平面上的移动速度不如轮式机器人快,灵活性和机动性也相对较低。
四足机器人:四足机器人以其稳定性和适应性而闻名,非常适合复杂地形探索、救援任务和军事应用。受四足动物的启发,这些机器人可以在不平坦的地面上保持平衡和移动,如图 4 (d) 所示。多关节设计使它们能够模仿生物运动,实现复杂的步态和姿势调整。高适应性使机器人能够自动调整其姿势以适应不断变化的地形,从而增强机动性和稳定性。传感系统(例如 LiDAR 和摄像头)提供环境感知,使机器人能够自主导航并避开障碍物。研究人员通常使用几种类型的四足机器人作为研究平台:Unitree Robotics、Boston Dynamics Spot 和 ANYmal C。Unitree Robotics 的 Unitree A1 和 Go1 以其成本效益和灵活性而闻名。A1和 Go1具备强大的机动性和智能避障能力,适用于各种应用。波士顿动力的 Spot 以其出色的稳定性和操作灵活性而闻名,常用于工业巡检和救援任务。它具有强大的承载能力和适应性,能够在恶劣环境下执行复杂的任务。ANYbotics 的 ANYmal C 具有模块化设计和高耐用性,广泛应用于工业检查和维护。ANYmal C 配备自主导航和远程操作功能,适合长时间户外任务,甚至极端的月球任务。与固定基座机器人一样,四足机器人也面临类似的缺点,例如成本高。四足机器人设计复杂、制造成本高,需要大量的初始投资,限制了它们在成本敏感领域的使用。此外四足机器人在复杂环境中的电池续航能力有限,需要频繁充电或更换电池才能长时间运行。
人形机器人:继固定基座机器人和四足机器人的讨论之后,人形机器人以其类似人类的外形而著称,在服务业、医疗保健和协作环境等领域越来越普遍。这些机器人可以模仿人类的动作和行为模式,提供个性化的服务和支持。它们灵巧的手部设计使它们能够执行复杂的任务,从而有别于其他类型的机器人,如图 4 (e) 所示。这些手通常具有多个自由度和高精度传感器,使它们能够模拟人手的抓握和操纵能力,这在医疗手术和精密制造等领域尤为重要 。在目前的人形机器人中,Atlas(波士顿动力公司)以其出色的机动性和稳定性而闻名。Atlas可以执行复杂的动态动作,例如跑步、跳跃和滚动,展示了人形机器人在高度动态环境中的潜力。HRP系列(AIST)用于各种研究和工业应用,设计重点是高稳定性和灵活性,使其在复杂环境中有效,特别是在与人类的协作任务中最著名的人形机器人之一ASIMO(本田),可以行走、跑步、爬楼梯,还能识别人脸和手势,适合用于接待、导游服务。此外小型社交机器人 Pepper(软银机器人公司)可以识别情绪并进行自然语言交流,广泛应用于客户服务和教育环境。尽管人形机器人在许多领域表现优异,但由于其控制系统复杂,在复杂环境下保持运行稳定性和可靠性方面面临重大挑战。这些挑战包括稳健的双足步行控制算法和灵巧的手抓取算法 。此外传统基于液压系统的人形机器人体积庞大、维护成本高,正逐渐被电机驱动系统取代。近期特斯拉和宇树机器人等公司均推出了基于电机系统的人形机器人。随着LLMs发展整合,人形机器人有望更智能地处理各种复杂任务,填补制造业、医疗服务业的劳动力空白,从而提高效率和安全性。
仿生机器人:与前面提到的机器人不同,仿生机器人通过模拟自然生物的有效运动和功能,在复杂而动态的环境中执行任务。通过模仿生物实体的形态和运动机制,这些机器人在医疗保健、环境监测和生物研究等领域展现出巨大的潜力 。通常它们利用柔性材料和结构来实现逼真、敏捷的动作。这些材料不仅增强了机器人的适应性和灵活性,而且还最大限度地减少了对环境的影响。此外仿生机器人通常配备先进的传感器和控制系统,能够实时感知环境并快速响应,从而增强其自主导航和任务执行能力。重要的是,仿生设计可以通过模仿生物体高效的运动机制,显着提高机器人的能源效率,使其在能源消耗方面更经济 。这些仿生机器人包括类似鱼类的机器人、类昆虫机器人和软体机器人,如图 4(f)所示。尽管仿生机器人性能优异,但也面临诸多挑战。首先其设计和制造过程往往复杂且成本高昂,限制了其大规模生产和广泛应用。其次由于仿生机器人采用柔性材料,运动机制复杂,在极端环境下的耐久性和可靠性有待提高。
具身模拟器
数据稀缺一直是具身人工智能研究面临的长期挑战。尽管如此收集现实世界的机器人数据仍面临诸多挑战。首先现实世界的机器人训练由于其实时性而进展缓慢,无法并行化。相关成本高得令人望而却步,需要专门的部署站点、专家操作控制数据收集以及大量的硬件费用。此外,最大的挑战在于可重复性,这源于机器人硬件配置、控制方法和实施框架的巨大差异,阻碍了数据的可移植性。在这种情况下,模拟器为收集和训练具身人工智能数据提供了一种新颖的解决方案。具身模拟器对于具身人工智能至关重要,因为它们提供经济高效的实验,通过模拟潜在危险场景来确保安全,可扩展性以在不同环境中进行测试,快速原型设计能力,更广泛的研究社区的可访问性,精确研究的受控环境,训练和评估的数据生成,以及算法比较的标准化基准。为了使代理能够与环境交互,必须构建一个逼真的模拟环境。这需要考虑环境的物理特性、对象的属性及其相互作用。这里将介绍常用的仿真平台:基于底层仿真的通用模拟器和基于真实场景的模拟器。
通用模拟器:现实环境中的物理交互和动态变化是不可替代的。然而在物理世界中部署具身模型往往需要高昂的成本,并面临诸多挑战。具身人工智能的最终目标是将虚拟环境中的发现转移到现实世界的应用中,研究人员可以选择最适合他们需求的模拟器来辅助他们的研究。通用模拟器提供了一个与物理世界紧密相似的虚拟环境,允许算法开发和模型训练,这具有显著的成本、时间和安全优势。
Isaac Sim是由 NVIDIA 开发的一款专为机器人和人工智能研究量身定制的先进仿真平台。Isaac Sim 的主要功能包括高保真物理模拟、实时光线追踪、丰富的机器人模型库和深度学习支持。还引入了 Pixar 的 USD(通用场景描述)格式来描述机器人和复杂场景。Isaac Sim 提供各种预构建的机器人模型和环境,并支持用户定义的模型。其应用场景包括机器人导航和控制、自动驾驶、工业自动化和人机交互。通过提供强大而多功能的平台,Isaac Sim 显著提高了机器人和人工智能研究的效率和效果。
Gazebo是 Open Robotics 开发的一款开源模拟器,广泛应用于机器人研究和教育。它提供高保真物理模拟和丰富的功能,是研究人员和开发人员的首选工具。Gazebo 的主要功能包括高保真物理模拟、多样化的传感器模拟、广泛的机器人库以及与 ROS 的紧密集成。Gazebo 支持各种传感器的模拟,包括摄像头、激光雷达和声纳,并提供大量预构建的机器人模型和环境,支持自定义模型。其应用场景包括机器人导航和控制以及多机器人系统。
PyBullet是 Bullet 物理引擎的 Python 接口,提供易于使用的模拟环境。PyBullet 的主要特点包括易用性、实时物理模拟、多样化传感器模拟和深度学习集成。PyBullet 支持实时物理模拟,包括刚体动力学、碰撞检测和约束求解。其应用场景包括机器人导航和控制、强化学习和计算机图形学。
表 II:通用模拟器。HFPS:高保真物理仿真;HQGR:高质量图形渲染;RRL:丰富的机器人库;DLS:深度学习支持;LSPC:大规模并行计算;ROS:与ROS的紧密集成;MSS:多传感器仿真;CP:跨平台;Nav:机器人导航;AD:自动驾驶;RL:强化学习;LSPS:大规模并行仿真;MR:多机器人系统;RS:机器人仿真。○ 表示该模拟器在此方面表现突出。
基于真实场景的模拟器:实现家居活动中的通用具身智能体一直是具身人工智能研究领域的重点。这些具身智能体需要深入了解人类的日常生活,并执行复杂的具身任务,例如室内环境中的导航和交互。为了满足这些复杂任务的需求,模拟环境需要尽可能接近现实世界,这对模拟器的复杂性和真实感提出了很高的要求。这导致了基于现实世界环境的模拟器的创建。这些模拟器主要从现实世界收集数据,创建逼真的 3D 资源,并使用 UE5 和 Unity 等 3D 游戏引擎构建场景,丰富逼真的场景使基于现实世界环境的模拟器成为家居活动中具身人工智能研究的首选。
图6:基于真实场景的模拟器的示例
表三总结所有基于真实场景的模拟器。
具身感知
视觉感知未来的“north stars”是以具身为中心的视觉推理和社会智能。与仅仅识别图像中的物体不同,具有具身感知的智能体必须在物理世界中移动并与环境交互,这需要对三维空间和动态环境有更深入的理解。具身感知需要视觉感知和推理,理解场景内的三维关系,并根据视觉信息预测和执行复杂任务。
01
主动视觉感知
主动视觉感知系统需要状态估计、场景感知和环境探索等基本能力。如图7所示,这些能力已在视觉同步定位与地图构建 ( vSLAM ) 领域得到广泛研究。3D场景理解和积极探索。这些研究领域有助于开发强大的主动视觉感知系统,促进在复杂、动态的环境中改善环境交互和导航。
图 7:主动视觉感知的示意图,视觉SLAM和3D场景理解为被动视觉感知提供了基础,而主动探索可以为被动感知系统提供主动性。这三个要素相辅相成,对主动视觉感知系统至关重要。
视觉同步定位与地图构建:同步定位与地图构建 (SLAM) 是一种确定移动机器人在未知环境中的位置并同时构建该环境地图的技术。基于深度的 SLAM使用测距仪(例如激光扫描仪、雷达和/或声纳)创建点云表示,但成本高昂且提供的环境信息有限。视觉 SLAM (vSLAM)使用机载摄像头捕捉帧并构建环境表示。它因硬件成本低、小规模场景中的准确性高以及能够捕捉丰富的环境信息而广受欢迎。经典的 vSLAM 技术可分为传统 vSLAM 和语义 vSLAM。
3D 场景理解:3D 场景理解旨在从 3D 场景数据中区分物体的语义、识别其位置并推断其几何属性,这是自动驾驶的基础。机器人导航,以及人机交互等。可以使用 3D 扫描工具(如 LiDAR 或 RGB-D 传感器)将场景记录为 3D 点云。与图像不同,点云稀疏、无序且不规则使得场景解读极具挑战性。
前面介绍的3D场景理解方法赋予机器人被动感知环境的能力,这种情况下感知系统的信息获取和决策不能适应不断变化的场景,而被动感知是主动探索的重要基础。机器人既能运动,又能与周围环境频繁互动,就应该具备主动探索和感知环境的能力,它们之间的关系如图7所示。目前解决主动感知的方法主要集中在与环境的交互上或通过改变观看方向来获得更多的视觉信息。
02
非视觉感知:触觉
皮肤促进人类的触觉感知。皮肤在被触摸时会改变形状,其丰富的神经细胞会发送电信号。这种触觉感知使人类能够充分掌握手头的工作。因此触觉对于机器人与现实世界的交互至关重要。触觉使机器人能够获取诸如材料、形状、温度甚至物体的接触力和重力等信息。目前对触觉的研究主要集中在三个领域:传感器设计、数据集构建和应用。触觉无疑增强了人机交互体验,前景广阔。
图 10:不同类型的触觉传感器。非视觉传感器(a) 主要使用力、压力、振动和温度传感器来获取触觉知识。基于视觉的触觉传感器((b)-(e)) 基于光学原理。将相机放置在凝胶后面,使用来自不同方向的光源照明来记录其变形的图像。(a)-(e) 是 BioTac、Gelsight、DIGIT、9DTact 和 Gelsilm 的详细信息。
传感器设计:触觉传感器设计方法可分为三类:非视觉型、视觉型和多模态型。早期,触觉传感器主要用于记录基本的低维感官输出,如力、压力、振动和温度。其原理多与电学和物理力学有关,数据多为具有时间相关性的低维序列。BioTac 是其中的代表及其模拟器。由于计算机视觉有着出色的表现,人们越来越关注基于视觉的触觉传感器,它通过光学原理获得触觉。利用凝胶形变的图像作为触觉信息,基于视觉的触觉传感器,GelSight, Gelslim, DIGIT, 9DTact TacTip, GelTip和AllSight已被用于众多应用。
数据集:非视觉传感器数据集包含电极值、三维净力矢量、接触位置等,因此数据集中的对象通常是力样本和抓取样本,其任务主要是力类型、力值和抓取细节的估计。BioTac系列主要收集的数据集。对于基于视觉的传感器,它们具有高分辨率的变形凝胶图像,除了估计力信息和滑动之外,它们更注重纹理分类和 3D 重建。数据集中的对象通常是家庭物品、野生动物环境、不同材料和抓取物品。同时,由于图像信息可以轻松地与其他模态(图像、语言、音频等)对齐和绑定,具身代理的触觉感知主要围绕基于视觉的传感器。数据集围绕 Geisight 传感器、DIGIT 传感器及其模拟器 .我们介绍了十个常用的触觉数据集,总结在表八中。
方法:触觉感知有着广泛的应用。从传感器获取的信息使机器人能够执行精确的机器人操作任务,完成多模式工作,甚至增强其三维重建和定位能力。
机器人操作。在这些任务中,弥合模拟与现实之间的差距非常重要。强化学习和基于 GAN 的方法已被提出来解决准确、准时的机器人操作任务中的变化。(1)强化学习方法。Visuotactile -RL提出了几种与现有 RL 方法不同的方法,包括触觉门控、触觉数据增强和视觉退化。(2)基于 GAN 的方法 。ACTNet提出了一种无监督对抗域自适应方法来缩小像素级触觉感知任务的域差距,引入了一种自适应相关注意机制来改进生成器,该生成器能够利用全局信息并专注于显着区域。
分类与识别。触觉表征学习侧重于材料分类工作和多模态理解。方法可分为两类:传统方法和 LLMs&VLMs 方法。(1)传统方法。人们已经采用了各种传统方法来增强触觉表征学习。自动编码器框架在开发紧凑的触觉数据表征方面发挥了重要作用。(2)LLMs&VLMs 方法。大型语言模型 (LLM) 和视觉语言模型 (VLM) 最近展示了对跨模态交互的惊人理解和强大的零样本性能。
3D 重建。Suresh 等人从一系列触觉图像和嘈杂的深度图中逐步重建 3D 家居物体的局部形状,将 3D 形状表示为从高斯过程中采样的有符号距离函数,并将其重新表述为空间图上的概率推理,为局部形状重建提供了一种稳健的方法。
困难:不同原理传感器的劣势:传统传感器提供的数据简单、有限、维度低,对多模态学习带来挑战;而基于视觉的传感器和电子皮肤虽然精度高,但成本过高,且无法提供温度信息。2)数据获取困难:触觉数据集稀少且异构,缺乏视觉等领域那样标准化、广泛的知识库,数据收集困难,虽然在简化收集设备方面做出了一些努力,但很难将触觉和视觉信息同时收集起来。3)标准不一致的困难:市面上传感器种类繁多,标准和原理不一致,即使成像模式相似,基于视觉的触觉传感器的设计和校准仍然存在很大的领域差距。与视觉和听觉数据的标准化格式不同,触觉数据格式在传感器制造商之间差异很大,这使得对从异构传感器收集的数据进行大规模学习变得困难,从而限制了公开可用的触觉数据集的实用性。
具身互动
具身交互任务是指智能体在物理或模拟空间中与人类和环境进行交互的场景,典型的具身交互任务有具身问答(EQA)和具身抓取。对于具身问答 (EQA) 任务,代理需要从第一人称视角探索环境,以收集回答给定问题所需的信息。具有自主探索和决策能力的代理不仅必须考虑采取哪些行动来探索环境,还必须确定何时停止探索以回答问题。现有研究侧重于不同类型的问题,其中一些如图11所示。
图 11:顶部灰色框显示代理在探索过程中观察到的场景。
具象问答:对于具身问答 (EQA) 任务,代理需要从第一人称视角探索环境,以收集回答给定问题所需的信息。具有自主探索和决策能力的代理不仅必须考虑采取哪些行动来探索环境,还必须确定何时停止探索以回答问题。
具身抓握:具身交互除了与人类进行问答交互外,还可以基于人类的指令执行操作,例如抓取和放置物体,从而完成机器人、人类和物体之间的交互。具身抓取需要全面的语义理解、场景感知、决策和鲁棒控制规划。具身抓取方法将传统的机器人运动学抓取与大型语言模型 (LLM) 等大型模型相结合和视觉语言基础模型,使代理能够在多感官感知下执行抓取任务,包括视觉主动感知、语言理解和推理。图12 (b) 展示了人-代理-物体交互的概览,其中代理完成了具身抓取任务。
图 12:具身抓握任务的概述。(a)演示了不同类型任务的语言引导抓握的示例,(b)提供了人-代理-物体交互的概述,(c)显示了“语言引导抓握”主题的 Google 学术搜索结果。
具身代理
代理被定义为能够感知其环境并采取行动实现特定目标的自主实体。最初,植根于符号推理的符号代理和以快速响应而闻名的反应代理被广泛使用。然而,这些代理在处理不确定情况下的复杂策略时受到限制。随后开发了基于学习的代理来缓解这一限制,但它们仍然不足以解决大规模的现实问题。MLM 的最新进展进一步将代理的应用扩展到实际场景中。当这些基于 MLM 的代理体现在物理实体中时,它们可以有效地将其解决问题的能力从虚拟空间转移到物理世界,从而成为具身代理 。
为了使具身代理能够在信息丰富且复杂的现实世界中运作,已经开发了具身多模态基础模型,为这些代理提供多模态感知和推理能力。为了完成一项任务,具身代理通常涉及以下过程:1)将抽象而复杂的任务分解为特定的子任务,这称为高级具身任务规划。2)通过有效利用具身感知和具身交互模型或利用基础模型的策略功能逐步实施这些子任务,称为低级具身行动规划。值得注意的是,任务规划涉及先思考后行动,因此通常在网络空间中考虑。相比之下,行动规划必须考虑与环境的有效交互,并将此信息反馈给任务规划者以调整任务规划。因此,具身代理将其能力从网络空间调整并推广到物理世界至关重要。
图 13:具身代理的总体架构。它由具身多模态基础模型、视觉感知模块、高级任务规划模块和低级动作规划模块组成。
模拟到现实的适应
具身人工智能中的模拟到现实适应是指将在模拟环境(网络空间)中学习到的能力或行为转移到现实世界场景(物理世界)的过程。它涉及验证和改进在模拟中开发的算法、模型和控制策略的有效性,以确保它们在物理环境中稳健可靠地运行。要实现模拟到现实的适应,具身世界模型、数据收集和训练方法以及具身控制算法是三个基本组成部分。
具身世界模型:Sim-to-Real 涉及在模拟中创建与真实世界环境非常相似的世界模型,帮助算法在迁移时更好地泛化。世界模型方法旨在构建一个端到端模型,通过以生成或预测的方式预测下一个状态来做出决策,将视觉映射到动作,甚至将任何东西映射到任何东西。这种世界模型与 VLA 模型之间的最大区别在于,VLA 模型首先在大规模互联网数据集上进行训练,以实现高级突发能力,然后与现实世界机器人数据共同微调。相比之下,世界模型是在物理世界数据上从头开始训练的,随着数据量的增加逐渐发展出高级能力。然而,它们仍然是低级的物理世界模型,有点类似于人类神经反射系统的机制。这使得它们更适合输入和输出都相对结构化的场景,例如自动驾驶(输入:视觉,输出:油门、刹车、方向盘)或物体分类(输入:视觉、指令、数字传感器,输出:抓取目标物体并将其放置在目标位置)。它们不太适合推广到非结构化的、复杂的具体任务。
图 16:五条方案实现模拟与现实之间的差距。“Sim2Real2Sim”通过重建真实场景来缩小差距。“TRANSIC”通过人工纠正干预来弥补模拟与现实之间的转移差距。“域随机化”通过模拟环境多样性来增强模型转移适应性。“系统识别”提高了模拟与现实环境的相似性,从而减轻了模拟与现实之间的差距。“Lang4Sim2Real”使用自然语言来连接两个领域,学习不变的图像表示并缩小视觉差距。
数据收集和训练:对于从模拟到现实的适应,高质量的数据非常重要。传统数据收集方法需要昂贵的设备、精确的操作,并且耗时费力,往往缺乏灵活性。
图 15:演示数据收集示意图。左侧黄色框为 Franka 和 WidowX 机械臂的操作演示,蓝色框为真人演示。右侧黄色框展示了 UR5e 和 Franka 机械臂在模拟环境中的操作场景,蓝色框显示带标签的模拟数据。底部黄色框展示了这些数据集的数据格式。
学习世界模型是物理模拟领域的一个有前途的方法。与传统的模拟方法相比,它具有显著的优势,例如能够推理信息不完整情况下的交互、满足实时计算要求以及随着时间的推移提高预测精度。这种世界模型的预测能力至关重要,使机器人能够发展在人类世界中运作所必需的物理直觉。如图14所示,根据世界环境的学习流程,它们可以分为基于生成的方法、基于预测的方法和知识驱动的方法。我们在表XI中简要总结了这些方法。
具身控制:具身控制旨在使机器人通过与环境的互动和学习获得新技能,从而适应并完成复杂的任务。具身控制通过与环境的互动进行学习,利用奖励机制优化行为,获得最优策略,从而避免传统物理建模方法的弊端。具身控制方法可分为两种类型:
1)深度强化学习(DRL)。DRL 可以处理高维数据并学习复杂的行为模式,适合决策和控制。
2)模仿学习。深度强化学习的缺点是需要从多次试验中获取大量数据。
挑战与未来方向
尽管具身人工智能取得了快速进步,但它面临着若干挑战,并呈现出令人兴奋的未来方向。
高质量的机器人数据集:获取足够的现实世界机器人数据仍然是一项重大挑战。收集这些数据既耗时又耗资源。仅依靠模拟数据会加剧模拟与现实之间的差距问题。创建多样化的现实世界机器人数据集需要各个机构之间密切而广泛的合作。此外,开发更逼真、更高效的模拟器对于提高模拟数据的质量至关重要。当前工作 RT-1 使用基于机器人图像和自然语言命令的预训练模型。RT-1 在导航和抓取任务中取得了良好的效果,但获取现实世界的机器人数据集非常具有挑战性。为了构建能够在机器人技术中跨场景和跨任务应用的可泛化具身模型,必须构建大规模数据集,利用高质量的模拟环境数据来辅助现实世界数据。
有效利用人类演示数据:有效利用人类演示数据涉及利用人类所展示的动作和行为来训练和改进机器人系统。此过程包括收集、处理和学习大规模、高质量的数据集,其中人类执行机器人要学习的任务。当前工作 R3M [379]使用动作标签和人类演示数据来学习可泛化的表示,在某些机器人抓取任务中表现出很高的成功率,但对于复杂任务的效率仍需提高。因此,有效利用大量非结构化、多标签和多模态的人类演示数据与动作标签数据相结合来训练能够在相对较短的时间内学习各种任务的具身模型非常重要。通过有效利用人类演示数据,机器人系统可以实现更高的性能和适应性,使其更有能力在动态环境中执行复杂任务。
复杂环境认知:复杂环境认知是指物理或虚拟环境中的实体代理感知、理解和驾驭复杂现实世界环境的能力。基于广泛的常识知识,Say-Can [380]采用了预训练的 LLM 模型的任务分解机制,该机制严重依赖大量常识性知识进行简单任务规划,但缺乏对复杂环境中长期任务的理解。对于非结构化的开放环境,当前的工作通常依赖于预训练的 LLM 的任务分解机制,使用大量常识性知识进行简单任务规划,而缺乏对特定场景的理解。增强在复杂环境中的知识转移和泛化能力至关重要。真正多功能的机器人系统应该能够理解和执行各种各样且看不见的场景中的自然语言指令。这需要开发适应性强且可扩展的具身代理架构。
长期任务执行:执行单个指令通常需要机器人执行长期任务,例如“打扫厨房”等命令,这些命令涉及重新摆放物品、清扫地板、擦桌子等活动。要成功完成此类任务,机器人必须具备在较长时间内规划和执行一系列低级动作的能力。尽管当前的高级任务规划器已取得初步成功,但由于缺乏针对具体任务的调整,它们在各种场景中往往显得不足。应对这一挑战需要开发具有强大感知能力和大量常识知识的高效规划器。
统一具身基础模型:探索具身机器人任务的基础模型仍然是一个新兴的研究领域,这主要是因为机器人技术本身就具有各种各样的具身、环境和任务。孤立的数据集和评估设置加剧了这一挑战。为具身机器人建立一个强大而统一的基础模型需要利用大规模互联网数据集和尖端的 LLM、MLM 和 WM。
因果关系发现:现有的数据驱动的具身智能体基于数据中的内在关联做出决策。然而,这种建模方法无法让模型真正理解知识、行为和环境之间的因果关系,导致策略出现偏差。这使得很难确保它们能够以可解释、稳健和可靠的方式在现实环境中运行。因此,对于具身智能体来说,构建由世界知识驱动的、能够自主进行因果推理的具身感知、推理和交互框架非常重要。通过交互理解世界,并通过溯因推理学习其工作原理,我们可以进一步增强多模态具身智能体在复杂现实环境中的适应性、决策可靠性和泛化能力。对于具身任务(如具身问答、视觉语言导航、指令跟随等),需要引入具身交互因果表征学习。这涉及通过交互指令和状态预测建立跨模态的时空因果关系,形成基于交互和推理的表征学习系统。此外,智能体需要理解物体的可供性,以实现动态场景中的自适应任务规划和长距离自主导航。为了优化决策,需要结合反事实和因果干预策略,从反事实和因果干预角度追踪因果关系,减少探索迭代,优化决策。基于世界知识构建因果图谱,通过主动因果推理驱动智能体的模拟到现实转移,将形成具身感知、推理和交互的统一框架。
持续学习:在机器人应用中,持续学习对于在不同环境中部署机器人学习策略至关重要,但它仍然是一个尚未开发的领域。虽然最近的一些研究已经研究了持续学习的子主题——例如增量学习、快速运动适应和人在环学习——但这些解决方案通常是为单一任务或平台设计的,尚未考虑基础模型。开放的研究问题和可行的方法包括:1) 在对最新数据进行微调时混合不同比例的先前数据分布以减轻灾难性遗忘,2)从先前分布或课程中开发有效的原型,用于学习新任务的任务推理,3)提高在线学习算法的训练稳定性和样本效率,4)确定将大容量模型无缝地合并到控制框架中的原则性方法,可能通过分层学习或慢快控制,进行实时推理。
统一评估基准:虽然存在许多用于评估低级控制策略的基准,但它们在评估的技能上往往存在很大差异。此外这些基准中包含的对象和场景通常受到模拟器约束的限制。为了全面评估具身模型,需要使用逼真的模拟器来涵盖各种技能的基准。对于高级任务规划器,许多基准都侧重于通过问答任务来评估规划能力。然而,更理想的方法是同时评估高级任务规划器和低级控制策略,以执行长期任务并衡量成功率,而不是仅仅依靠对规划器的孤立评估。这种综合方法可以更全面地评估具身人工智能系统的能力。
总结
具身人工智能使代理能够感知、感知并与来自网络空间和物理世界的各种对象进行交互,这对于实现 AGI 具有重要意义。本综述广泛回顾了具身机器人、模拟器、四个代表性具身任务:视觉主动感知、具身交互、具身代理和模拟现实机器人控制,以及未来的研究方向。具身机器人、模拟器、数据集和方法的比较总结清晰地描绘了具身人工智能的最新发展,这对未来沿着这一新兴且有前途的研究方向的研究大有裨益。