首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大模型驱动的具身智能:人工智能迈向实体机器人的重要突破

摘要

本文将围绕《大模型驱动的具身智能:发展与挑战》这篇论文,深入探讨大模型如何赋能具身智能,以及这一领域面临的挑战与未来发展方向。

该论文发表于《中国科学:信息科学》2024年第54卷。本项目为国家自然科学基金 (批准号: 61871470, 62306242) 资助项目。

关注公众号,回复“大模型”,可获得48页完整版的《大模型驱动的具身智能:发展与挑战》论文的PDF原文文档。

近年来,人工智能(AI)技术的飞速发展让人们对未来的智能机器人充满期待。从语言模型到视觉识别,从强化学习到多模态生成,AI的能力正在逐步扩展到更复杂的领域。然而,真正让AI从“数字智能”迈向“实体智能”的关键,是具身智能(Embodied AI)的研究。具身智能的目标是让机器人具备类似人类的感知、规划、决策和行为能力,能够与物理世界进行交互并完成复杂任务。

随着大模型(如ChatGPT、GPT-4等)的崛起,具身智能的研究迎来了新的机遇。大模型的强大感知、推理和逻辑能力,为解决机器人在复杂环境中的学习和适应问题提供了全新的思路。

关注公众号,回复“大模型”,可获得48页完整版的《大模型驱动的具身智能:发展与挑战》论文的PDF原文文档。

完整的论文脑图如下:

具身智能的核心概念与发展历程

具身智能是人工智能、机器人学和认知科学的交叉领域,研究如何让机器人具备类似人类的感知、规划、决策和行为能力。具身智能的核心在于“感知-运动回路”(Perception-Action Loop),即机器人通过传感器感知环境,根据任务目标进行规划和决策,然后通过执行器完成任务,同时根据环境反馈优化策略。

具身智能的历史可以追溯到20世纪50年代,图灵首次提出具身智能的概念,探索机器如何感知和理解世界。80年代,布鲁克斯(Rodney Brooks)提出“行为主义机器人学”,强调机器人应通过与环境的主动交互获取智能,而非仅仅依赖被动学习。近年来,随着深度学习、强化学习和多模态技术的突破,具身智能的研究进入了新的阶段。

大模型如何赋能具身智能

大模型的崛起为具身智能的发展注入了新的活力。以ChatGPT为代表的语言模型、以CLIP为代表的视觉-语言模型,以及多模态大模型,正在改变机器人学习和决策的方式。论文将大模型赋能具身智能的研究分为以下五个方面:

一. 大模型驱动的具身环境感知

大模型驱动的具身环境感知是具身智能研究中的一个重要方向,其核心目标是通过大模型的强大感知能力,从复杂、多模态的环境中提取对机器人任务执行有用的信息。这一部分的研究主要集中在如何利用大模型(如视觉基础模型、视觉-语言模型和多模态大模型)对环境进行特征提取、信息融合和语义理解,从而提升具身智能体在感知和决策中的效率和泛化能力。

1. 图像观测特征学习

在具身智能任务中,智能体对环境的感知通常以视觉信息为主。为了从视觉观测中提取与任务相关的特征,研究者们提出了多种方法,包括数据增广、对比学习、环境模型和值函数学习。

· 数据增广:通过图像裁剪、移动、对抗增强等技术扩充训练数据,增强策略在状态邻域内的平滑性。

· 对比学习:利用智能体轨迹构建正负样本,学习轨迹时序或状态转移相关的特征。

· 环境模型:通过状态表征和动作重建下一个状态表征,提取与环境转移相关的表征,忽略背景等无关因素。

·值函数学习:利用值函数预测长期环境转移导致的状态概率密度,提升样本效率。

这些方法虽然能够提升样本效率,但在新环境和任务中需要重新训练,且泛化能力较差。为了解决这些问题,研究者引入了预训练的视觉模型,如ResNet和MAE,通过大规模无标记数据进行自监督学习,从而提升表征的泛化性和鲁棒性。

2. Affordance提取

Affordance是指机器人与物体交互时,物体表现出的“怎样使用”的性质,例如“茶壶手柄是被握着的”或“门是从外向里推开的”。Affordance提取能够为机器人提供直观的交互提示,避免完全依赖试错法解决问题。

研究者们通过人类操作视频挖掘Affordance信息,构建预测模型来预测物体的交互位置和轨迹。例如,Nagarajan等提出从人类操作视频中预测一系列动作(如推拉、拿起、倾倒等),并将其应用于静止物体的交互。此外,研究还探索了如何从视频中提取更细粒度的交互信息,如物体的接触点和作用方式。

3. 3D视觉表征提取

在机械臂、移动机器人和人形机器人等任务中,仅依赖2D图像输入难以处理复杂的抓取和操作问题。研究者们通过多个RGB-D相机还原场景的三维结构,提取3D场景特征,包括目标位置、方向、遮挡和物体之间的堆叠关系。

· 3D特征提取:使用PointNet等网络结构对3D点云数据进行特征提取,直接预测机器人在6D空间中的抓取位姿。

· 多视角融合:利用多个视角的相机输入,学习跨视角的环境模型,提升策略对视角变化的鲁棒性。

· 遮挡处理:通过对比学习设计目标条件遮挡场,忽略不重要的物体,保持对重要场景的敏感度。

这些方法能够显著提升机器人在复杂场景中的感知和操作能力,但仍需进一步研究如何在多模态数据中实现高效的特征融合和语义理解。

二. 大模型驱动的任务规划

大模型驱动的具身任务规划是具身智能研究中的一个关键方向,其核心目标是利用大模型的强大逻辑推理能力,将复杂任务分解为可执行的子任务,并生成高效的执行策略。这一部分的研究主要集中在如何通过大模型(如大语言模型和视觉-语言模型)进行任务分解、规划生成和实时调整,以提升具身智能体在复杂任务中的适应性和执行效率。

1. 开环和闭环反馈

大模型在任务规划中的应用通常分为开环和闭环两种模式。

· 开环任务规划:大模型根据任务描述和环境提示生成自然语言描述的规划步骤。例如,微软推出的ChatGPT for Robotics能够根据任务描述和底层技能库生成具体的动作序列。这种方法的优点是简单直接,但容易出现规划与现实环境不匹配的问题。

· 闭环反馈机制:为解决开环规划中的不匹配问题,研究者引入了闭环反馈机制,包括大模型自我反馈、环境反馈和值函数反馈。

o 大模型自我反馈:通过引入额外的大模型评价器对规划进行评价和改进。例如,Self-Refine和Reflexion算法通过多轮迭代提升规划的合理性。

o 环境反馈:通过与环境交互获取反馈,调整规划内容。例如,Inner Monologue和RoCo算法利用碰撞检测和场景描述反馈改进规划。

o 值函数反馈:结合强化学习中的值函数概念,对规划动作进行评价和调整。例如,SayCan和Text2Motion算法通过值函数避免输出不合理的动作。

闭环反馈机制能够有效提升规划的准确性和适应性,但需要额外的计算资源和交互轮次。

2. 规划搜索算法

在长序列决策任务中,大模型需要通过规划搜索算法对未来可行解进行搜索,以保证规划的最优性。

· 基于树搜索的方法:遵循蒙特卡洛树搜索(MCTS)的思路,通过构建搜索树选择最优动作。例如,TOT算法将思维链扩展为“思维树”,在叶子节点处进行值函数估计。TS-LLM算法通过强化学习值函数估计方法提升规划的准确性。

· 基于PDDL语言的搜索:PDDL是一种用于长周期规划的经典语言,能够通过任务定义和目标定义搜索可行解。例如,LLM+P和LLM+PDDL算法结合大模型和PDDL求解器,生成符合约束的规划。

这些方法能够显著提升大模型在长周期任务中的规划能力,但需要预知环境模型或引入额外的计算资源。

3. 方法对比与总结

· 开环方法:简单直接,但适应性较差,容易出现规划与现实不匹配的问题。

· 闭环方法:通过反馈机制提升规划的准确性和适应性,但需要额外的计算资源和交互轮次。

· 树搜索方法:适用于长周期任务,但需要预知环境模型。

· PDDL方法:适用于复杂任务,但依赖于明确的任务定义和约束。

三. 大模型驱动的基础策略

大模型驱动的具身基础策略是具身智能研究中的一个核心方向,旨在通过大模型(如大语言模型和视觉-语言模型)的强大能力,直接生成或优化机器人的控制策略。这一部分的研究主要集中在如何利用大模型进行策略学习、微调和实时决策,以提升具身智能体在复杂任务中的执行效率和泛化能力。

1. 大模型微调的决策规划

大模型微调的决策规划通过在具身智能数据上对预训练的大模型进行微调,使其适应特定的具身智能任务场景。这种方法能够有效利用大模型的通用知识,同时通过少量的机器人数据进行微调,提升策略的适应性和泛化能力。

· Palm-E:Google提出的一种具身规划大模型,能够处理多模态输入数据,将具身智能数据与视觉问答、语言问答任务等数据进行共同训练,从而处理多种复杂问题。

· Embodied-GPT:使用基于Ego4D的人类操作问答数据集,通过轻量级的7B语言模型进行微调,在底层使用模仿学习的方法将单步的规划转换成底层策略进行执行。

2. 大模型微调的策略学习

大模型微调的策略学习通过在具身智能数据上对大模型进行微调,使其能够直接从任务描述到动作执行进行映射,减少对底层技能库的依赖。

· LaMo:使用小规模GPT-2语言模型作为离线强化学习的基础策略,通过条件模仿学习框架进行训练,保留大模型自身编码的知识结构,从而适应离线决策任务。

· RT系列:Google提出的Robot Transformer系列,使用更大规模的语言模型和更多的具身智能任务数据进行训练。RT-1和RT-2分别通过EfficientNet-B3网络和大规模预训练的视觉-语言模型结构进行动作预测,显著提升了策略的泛化能力。

3. 直接策略学习

直接策略学习通过自行设计的Transformer网络结构,直接使用机器人数据从头开始训练网络,在部分具身决策任务中取得了不错的效果。

· ALOHA:斯坦福大学提出的结构,使用Transformer编码-解码网络结构,以不同方位的观测图像作为输入,通过解码器直接输出机械臂动作,解决长周期决策问题。

· Mobile ALOHA:通过专家示教数据的模仿学习,能够完成滑蛋虾仁、干贝烧鸡、蚝油生菜等菜品的制作,展示了出色的具身智能效果。

4. 扩散模型驱动的基础策略

扩散模型作为一种强大的生成模型,能够建模高维度的决策序列,被用于具身智能任务中的动作规划和策略生成。

· Diffuser:通过历史轨迹作为条件,使用奖励引导进行轨迹生成,能够根据历史轨迹生成未来的高奖励轨迹规划。

· Decision Diffuser:增强条件生成的能力,将回报函数、任务描述、技能描述、约束条件等作为条件进行可控的扩散动作生成,提升扩散模型在决策任务中的规划能力。

· MTDiffuser:使用Meta-Learning框架,对任务轨迹使用上下文编码器进行编码,生成符合任务目标和动力学的智能体轨迹。

5. 传统控制方法的结合

大模型驱动的基础策略还可以与传统控制方法结合,利用传统控制方法的精确性和稳定性,同时利用大模型处理高层次、低频的决策任务。

· 混合控制架构:使用传统控制方法处理低层次的、高频的控制任务(如稳定性和精度控制),而使用大模型驱动的方法处理高层次的、低频的决策任务,提高策略的收敛性和稳定性。

二. 大模型驱动的任务规划

大模型驱动的具身奖励函数是具身智能研究中的一个重要方向,旨在利用大模型(如大语言模型和视觉-语言模型)的强大能力,自动生成或优化奖励函数,从而提升强化学习和模型预测控制等算法的效率和适应性。这一部分的研究主要集中在如何通过大模型生成奖励函数代码、学习奖励函数以及与人类偏好对齐的奖励函数。

1. 奖励函数代码生成

奖励函数代码生成通过大模型直接生成奖励函数的代码,利用大模型对环境和任务的理解能力,自动生成密集奖励函数。

· VoxPoser:使用大语言模型编写奖励函数代码,根据任务的语言描述和视觉检测模型对场景中物体的定位,生成3D机器人操作空间内的奖励图和约束图。

· Text2Reward:利用大模型对环境的理解能力,根据任务描述生成密集奖励函数,通过人类反馈优化奖励函数设计。

· Eureka:英伟达提出的奖励生成框架,结合GPT-4的强大任务规划能力和代码编写能力,生成任务的奖励函数,并通过强化学习算法进行策略优化。

这些方法能够有效提升奖励函数的设计效率,但需要通过多次迭代优化和人类反馈来适应具体的机器人任务。

2. 奖励学习和计算

奖励学习通过构建奖励模型对奖励函数进行估计,主要方法包括视频预测模型、语言-视频匹配模型和预训练视觉-语言模型。

· 视频预测模型:通过专家轨迹学习条件概率生成模型,使用扩散模型对智能体交互视频进行建模,生成与专家轨迹相似的奖励函数。

· 语言-视频匹配模型:通过对比学习和值函数优化,对任务描述和交互视频的相似性进行最大化,从而作为智能体的奖励。

· 预训练视觉-语言模型:使用预训练的视觉和语言模型判断任务描述和视频轨迹的相似性,作为奖励函数。

这些方法能够从大规模数据集中学习奖励函数,适应性强,但在实际任务中需要较高的计算资源。

3. 偏好驱动的奖励函数

偏好驱动的奖励函数通过人类偏好数据集建模奖励函数,使机器人的行为与人类的特定偏好对齐。

· 人类偏好强化学习(RLHF):通过人类对轨迹片段的偏好标签建模奖励函数,提升策略的安全性和适应性。

· PEBBLE:提出反馈高效的偏好强化学习框架,通过人类反馈的偏好标注提升奖励函数的鲁棒性和泛化性。

· SURF:通过数据增强提升人类反馈数据的利用效率,优化偏好奖励函数。

· RUNE:引入奖励不确定性的概念,通过拟合多个奖励函数并衡量预测的方差来指导智能体的探索。

这些方法能够有效提升奖励函数的可控性和安全性,但需要大量的偏好数据和计算资源。

总结与展望

大模型驱动的具身奖励函数通过代码生成、奖励学习和偏好对齐等方法,显著提升了具身智能体在复杂任务中的适应性和执行效率。未来的研究方向包括:

· 提升奖励函数的实时性:通过轻量化模型和高效推理算法,满足动态环境中的实时奖励计算需求。

· 增强奖励函数的适应性:通过数字孪生技术和闭环反馈机制,提升奖励函数在复杂环境中的适应性。

· 探索多模态奖励函数:结合视觉、语言和动作等多模态信息,提升奖励函数的多样性和鲁棒性。

五. 大模型驱动的数据生成

大模型驱动的具身数据生成是具身智能研究中的一个重要方向,旨在通过大模型(如大语言模型、视觉-语言模型和多模态大模型)生成高质量的仿真数据和任务场景,从而提升具身智能体在复杂任务中的学习效率和适应性。这一部分的研究主要集中在如何利用大模型构建世界模型和仿真环境,生成丰富的训练数据,以支持强化学习、模仿学习和模型预测控制等算法的应用。

1. 世界模型的数据生成

世界模型的构建是具身智能研究的重要内容,旨在通过理解复杂物理世界的运行规律,对执行动作产生的未来状态转移进行估计。世界模型不仅能够帮助智能体进行未来状态和轨迹的预测,还能生成大量的推演数据轨迹,丰富训练数据并改进策略。

1.1 隐空间世界模型

隐空间世界模型通过将视觉观测映射到表征空间中,构建环境模型并进行推理,从而降低多步环境模型预测中的误差。

· Dreamer:通过将视觉观测映射到表征空间中,构建环境模型并预测奖励函数,从而获得更准确的价值估计。

· TD-MPC:针对连续控制问题,使用非观测重建的方式在隐空间内构建环境状态转移模型,结合模型预测控制算法进行策略求解。

· Dynalang:扩展到多模态数据,能够同时预测图像和文本表示的状态变化。

1.2 Transformer世界模型

Transformer世界模型通过捕捉数据中的长时序依赖关系,直接预测未来的视觉观测词元。

· Trajectory Transformer (TT):对连续控制任务中的状态和动作进行分桶处理,通过Transformer结构预测未来的状态词元。

· IRIS:首次正式提出基于词元的Transformer世界模型,直接预测未来的视觉观测词元,提升观测重建的精确性。

· STORM:结合观测和动作两种模态形成单一词元,在Atari-100K环境中取得最佳结果。

1.3 扩散世界模型

扩散世界模型通过前向的噪声扩散过程和多步逆向的去噪过程,生成高质量的图像和视频数据。

· Sora:根据语言描述在原始的图像空间中生成多步的图像预测,组成长达60秒的内容连贯的视频。

· SynthER:使用扩散模型学习低维的强化学习离线轨迹数据集,生成与原始轨迹高度一致的数据。

· UniPi:直接在图像空间对智能体的轨迹进行建模,生成关键视频帧并进行超分辨,获得一致性增强的密集图像序列。

2. 仿真环境的数据生成

仿真环境的数据生成通过大模型自动生成任务场景和数据,降低任务仿真环境编写的难度,提升机器人数据的多样性。

· GenSim:使用大语言模型自动生成任务场景代码搭建,并验证仿真环境的可行性,生成高质量的任务库和专家数据。

· RoboGen:进一步提出通用的仿真环境生成器,能够在多种具身实体上生成仿真环境,通过调用仿真器底层函数搭建符合任务描述的仿真环境,并生成解决不同任务的策略和数据。

3. 方法对比与总结

· 隐空间世界模型:通过表征空间建模降低预测误差,适用于连续控制问题,但需要大量的计算资源。

· Transformer世界模型:精确捕捉长时序依赖关系,适用于复杂任务,但推理效率较低。

· 扩散世界模型:生成高质量的图像和视频数据,适用于多模态任务,但需要大规模数据集。

· 仿真环境生成:通过大模型自动生成任务场景和数据,提升数据多样性,但依赖于仿真器的性能。

4. 未来展望

未来的研究方向包括:

· 提升数据生成的多样性:通过多模态数据和大规模预训练模型,生成更加丰富的任务场景和数据。

· 增强数据生成的真实性和高效性:通过改进扩散模型和Transformer模型,提升生成数据的质量和效率。

· 探索实时数据生成:通过轻量化模型和高效推理算法,满足动态环境中的实时数据需求。

· 推动多模态数据生成:结合视觉、语言和动作等多模态信息,生成更加真实的任务场景和数据。

大模型驱动的具身数据生成通过构建世界模型和仿真环境,显著提升了具身智能体在复杂任务中的学习效率和适应性。未来的研究将进一步推动这一领域的发展,为具身智能的实际应用提供更强大的技术支持。

六、大模型驱动的具身智能面临的挑战

尽管大模型为具身智能带来了许多机遇,但这一领域仍面临诸多挑战:

1. 大模型在特定具身场景中的适应问题

大模型是广泛意义上的“通才”,但在特定机器人任务中往往需要“专才”。如何让大模型在具体场景中实现精确的操作,仍是一个长期的挑战。

2. 大模型策略和人类偏好的对齐问题

大模型生成的规划和指令可能与人类偏好不一致。例如,大模型可能倾向于生成多样化的回答,而机器人任务需要精确、安全的指令。如何通过人类反馈强化学习(RLHF)对齐大模型和人类偏好,是未来的重要研究方向。

3. 具身策略的跨域泛化问题

机器人策略往往难以适应环境参数的变化(如地形、动力学参数)。如何通过域随机化、数据增强等技术提升策略的泛化能力,是具身智能的关键问题。

4. 大模型驱动多智能体协作的能力

在复杂任务中,多个机器人需要协同工作。然而,现有的多智能体协作方法在大模型背景下仍缺乏系统性研究,如何实现高效协作是未来的重要课题。

5. 大模型具身策略的决策实时性问题

机器人任务需要快速决策,而大模型的推理成本较高。如何通过模型剪枝、量化等技术实现大模型的轻量化,是提升实时性的关键。

七、未来展望:

大模型驱动的具身智能将走向何方?

论文提出了未来研究的八大方向:

1. 统一具身数据平台:构建涵盖多种机器人、任务和环境的多模态数据平台,推动数据基础设施建设。

2. 通用具身数据表征:开发统一的机器人多模态观测表征,提升数据的通用性和泛化能力。

3. 鲁棒具身控制策略:提升机器人策略的安全性和鲁棒性,避免环境干扰和外界因素带来的危险。

4. 可控具身策略生成:建立安全保障机制,确保机器人行为符合预设的安全边界。

5. 人机合作具身智能:增强机器人对人类意图的理解能力,提升人机协作效率。

6. 异构智能体协同:通过多智能体强化学习,实现不同类型机器人的高效协同。

7. 轻量化具身策略:推动大模型与小模型结合,以较低的计算代价解决具身智能任务。

8. 人形机器人:推动人形机器人在运动控制、抓取操作、导航等方面的全面发展,更好地服务人类。

八、结 语

大模型驱动的具身智能是人工智能迈向实体机器人的重要突破。通过将大模型的强大感知、推理和逻辑能力与机器人结合,具身智能有望实现从实验室到现实世界的跨越。尽管这一领域仍面临诸多挑战,但随着技术的不断发展,我们有理由相信,具身智能将成为未来人工智能的核心方向之一,为人类社会带来深远的影响。

关注公众号,回复“大模型”,可获得48页完整版的《大模型驱动的具身智能:发展与挑战》论文的PDF原文文档。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OaQveDdqwtxlJG6HhXcNa9sQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券