首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【Agent】AI智能体(Agent)能力定义与分级:L0-L5,揭秘AI智能体的进化之路

AI智能体被定义为感知环境、做出决策和采取行动的人工实体。

AI Agent 可以类比为自动驾驶的 L4 阶段,距离真正实现仍有差距。

根据甲子光年报告,AI 与人 类的协作程度可以和自动驾驶等级进行类比。像 ChatGPT 这类对话机器人可以类比 L2 级别自动 驾驶,人类可以向 AI 寻求意见,但 AI 不直接参与工作;Copilot 这类副驾驶工具可以类比为L3 级 别的自动驾驶,人类和 AI 共同协作完成工作,AI 根据 prompt 生成初稿,人类仅需进行修改调整;而 Agent 则进一步升级为 L4,人类给定一个目标,Agent 可以自己完成任务规划、工具调用等。但就如同 L4 级别的自动驾驶还未真正实现一样,AI Agents 容易想象和演示,却难以实现,AI Agents 的真正应用还在不确定的未来。

受到SAE(汽车工程师协会)定义的6个自动驾驶级别的启发,我们将AI智能体能力分为:L0-没有人工智能;L1-规则符号智能;L2-推理决策智能;L3-记忆反思智能;L4-自主学习智能;L5-个性群体智能。后续会给出分级具体定义。

1 - 引言

任何能够感知其环境并执行行动的实体都可以被视为智能体。

智能体可以分为五种类型:简单反射智能体、基于模型的反射智能体、基于目标的智能体、基于效用的智能体和学习智能体[1]。

随着AI的发展,“智能体”一词被用来描述表现出智能行为并具有自主性、反应性、主动性和社交互动等能力的实体。

在20世纪50年代,艾伦·图灵提出了著名的图灵测试[2]。它是AI的基石,旨在探索机器是否能够展示与人类相当或更好的智能行为。这些AI实体通常被称为“智能体”,构成了AI系统的基本构建块。

基础模型[3]在NLP领域最为突出。从技术层面上,基础模型是通过迁移学习和规模实现的。迁移学习的思想是将从一项任务中学到的“知识”应用到另一项任务中。基础模型通常遵循这样一个范式:一个模型在代理任务上预训练,然后通过微调适应感兴趣的下游任务。最近出现的大多数大型语言模型(LLMs)[4]都是基于或建立在基础模型之上的。由于最近展示的卓越能力,LLMs被视为AI向人工通用智能(AGI)渗透的潜在力量,为构建通用AI智能体提供了希望。

AI智能体通常指的是能够使用传感器感知周围环境、做出决策和使用执行器采取行动的人工实体[5]。根据世界范围(WS)[6]的概念,它通过包含从NLP到通用AI的5个级别(即语料库、互联网、感知、具体化和社会)来审计NLP的进展,纯基于LLM的智能体仅建立在从书面互联网世界的第二级。除此之外,LLMs在知识获取、指令解释、泛化、规划和推理方面证明了卓越的能力,同时展示了与人类的自然语言互动。从这个状态出发,LLM辅助的智能体具有扩大的感知空间和行动空间,有潜力达到世界范围的第三和第四级别,即感知AI和具体化AI。此外,这些基于LLM的智能体可以通过协作或游戏处理更困难的任务,并且可以发现社会现象,实现世界范围的第五级别,即社会世界。

第2节中,简要回顾了LLMs;

第3节详细阐述了各种AI智能体;

第4节分析并定义了AI智能体的级别;

最后给出结论。

2 - 大语言模型(LLMs)

LLMs[4]是基于Transformer的语言模型类别,其特点是拥有大量的参数,通常数以千亿计甚至更多。这些模型在庞大的文本数据集上进行训练,使它们能够理解自然语言并执行广泛的复杂任务,主要通过文本生成和理解。一些知名的LLMs示例包括GPT3/4、PaLM、OPT和LLaMA1/2。

广泛的研究表明,规模可以大大提高LLMs的模型容量。因此,建立一个定量方法来描述规模效应是有用的。有两种代表性的Transformer语言模型的规模定律:一种来自OpenAI[7],另一种来自Google DeepMind[8]。"预训练+微调"的过程被另一种称为"预训练+提示+预测"的过程所取代[9]。在这个范式中,不是通过目标工程将预训练的语言模型(LM)适应到下游任务,而是将下游任务重新构建,使其看起来更像是在原始LM训练期间通过文本提示解决的问题。通过选择适当的提示,可以操纵模型行为,以便预训练的LM本身可以用来预测所需的输出,有时甚至不需要任何额外的任务特定训练。

提示工程[10]的工作原理是找到最合适的提示,以允许语言模型解决手头的任务。LLMs的新兴能力是区分它们与较小语言模型的最重要特征之一。具体来说,上下文学习(ICL)[11]、指令跟随[12]和思维链(CoT)推理[13]是LLMs的三种典型新兴能力。参数高效微调(PEFT)[14]是一种关键技术,用于将预训练的语言模型(LLMs)适应到专门的下游应用中。PEFT可以细分为基于添加的、基于选择/规范的或基于重新参数化的。它只需要微调一小部分参数,使其方便用于边缘设备,并且可以有效缓解灾难性遗忘问题。由于LLMs被训练以捕获预训练语料库(包括高质量和低质量数据)的数据特征,它们可能会为人类生成有毒的、有偏见的甚至有害的内容。有必要使LLMs与人类价值观保持一致,例如,有帮助、诚实和无害。从人类反馈中进行强化学习(RLHF)[15]已成为微调LLM系统以更紧密地与人类偏好对齐的关键策略。

受到LLMs潜力的激励,提出了许多多模态LLMs(MLLMs)[16],以将LLMs扩展到多模态领域,即感知图像/视频输入,并在多轮对话中与用户交流。在大量图像/视频-文本对上预训练,上述模型只能处理图像级任务,如图像字幕和问题回答。在强大的预训练LLM权重的基础上,多模态LLMs旨在处理除文本之外的多种类型的输入。多模态LLMs已广泛应用于各种任务,如图像理解、视频理解、医学诊断和具体化AI等。人们认为LLMs配备了类似人类的智能和常识,保留了使我们更接近人工通用智能(AGI)领域的潜力。LLMs的出现可能是知识驱动智能体的里程碑,它们感知环境并积累知识[17-27]。

3 - AI智能体

随着人工智能的发展,“智能体”一词被用来描述表现出智能行为和拥有自主性、反应性、主动性和社会互动等能力。20世纪50年代,Alan Turing提出著名的图灵测试。它是人工智能的基石,旨在探索机器是否能表现出智能与人类相当的行为。这些人工智能体通常被称为“Agent”,作为基本单元模块构建AI系统。

AI智能体能够根据其训练和输入数据进行理解、预测和响应。在这些能力得到发展和改进的同时,了解它们的局限性以及它们所训练的基础数据的影响是很重要的。AI智能体系统有一些能力:1)感知和预测建模。2)规划和决策制定。3)自我学习和持续改进;4)执行和互动;5)个性化和协作。具体化智能/AI的目标是构建智能体,例如机器人,它们通过智能体与环境之间的交互学习解决任务。

对于AI智能体来说,学习行动的有效方法,如RL,是通过与环境的交互进行试错体验。在物理环境中进行训练通常是不可行的,因此使用模拟器来学习策略是一种常见方法。

符号AI[17-18]应用逻辑规则和符号表示来封装知识和促进推理过程,在其中关键问题是转导和表示/推理。一个经典的例子是知识型专家系统。符号智能体在不确定性和大规模问题上面临限制。它们主要依赖于固定的算法或规则集,在它们构建的任务中表现良好。然而,它们通常很难在面对OOD(分布外)任务时进行泛化和推理。

基于RL的智能体[19-24]通过与环境的交互进行累积奖励学习,以处理更困难的任务。一个例子是使用Q学习的AlphaGo。尽管如此,RL的问题是长时间的训练、低样本效率和稳定性问题,特别是在现实世界环境中。

知识智能体可以隐式或显式地利用知识。隐性知识通常是LLMs封装的,显性知识是结构化的,被查询以生成响应。隐性和显性知识的结合使AI智能体能够像人类智能一样在上下文中应用知识。基于LLM的智能体[25-35]将LLMs作为大脑或控制器的主要组成部分,并通过多模态感知和工具利用等策略扩展它们的感知和行动空间。它们可以通过思维链(CoT)和任务分割等技术启用推理和规划能力。

LLMs的出现对AI智能体设计产生了重大变化。这些LLM智能体不仅精通理解和生成自然语言,而且擅长泛化。这种能力使它们能够轻松地与各种工具集成,增强了它们的多功能性。另一方面,LLMs的新兴能力在推理方面显示了优势。具有预训练知识的LLM智能体即使没有特定任务的训练,也倾向于决策策略。另一方面,RL智能体通常需要在看不见的情况下从头开始训练,使用交互来学习。

基于LLM的智能体可以相互交互,导致社会现象的出现。在基于LLM的多智能体系统(MAS)中,智能体参与协作、竞争或层次平台来执行任务。这些任务可以从搜索和优化、决策制定和资源分配到协作控制开始。智能体之间的关系决定了它们之间的互动和合作状态。情感推理和移情是许多人工智能-机器交互中智能体的重要技能。

4 - AI智能体级别

Agent可以可分为五种类型:简单反射Agent、基于模型的反射Agent、基于目标的Agent、实用性Agent和学习Agent。

借鉴汽车工程师协会(SAE)对自动驾驶定义的分级方式,Agent根据其效能和能力被分为以下几个层次:

L0级—没有 AI,仅有基本的工具(能实现感知)和行为能力;

L1级—采用基于规则的 AI;

L2级—转而使用基于互动学习(IL)/强化学习(RL)的 AI,并增添推理和决策能力;

L3级—改用基于LLM的 AI 替换互动学习/强化学习的方式,并增加记忆(Memory)与自我反思(reflection);

L4级—在 L3的基础上,加强自我学习和泛化的能力;

L5级—在 L4的基础上,增加了个性(情感+性格)和协作行为(MultiAgent)。

基于能力的范围(普遍性)和深度(性能),一种分类AGI的矩阵方法在[28]中给出,如下表1所示。其中性能(Performance)指标估计AGI与人类在给定任务上的性能水平的比较;普遍性(Generality)指标衡量AI达到目标性能阈值的任务范围。性能和/或普遍性级别的进展速率可能是非线性的。

个人LLM智能体[35]所需的理想特性需要不同种类的能力。个人LLM智能体的智能级别被分为5个级别,从L1到L5。每个级别的关键特征和代表性用例列在下面的表2中。

在本文中,我们根据技术和能力来定义和划分AI智能体的级别如下:

4.1 工具(感知+行动)

各种外部工具支持智能体更丰富的行动能力,包括API、知识库、视觉编码模型和语言模型,使智能体能够适应环境变化,提供交互和反馈,甚至影响环境。工具执行可以反映智能体的复杂要求,并增强其决策的可信度。行动模块的目标是将智能体的决策转化为具体结果。它与环境互动并获取反馈,决定智能体实现任务的有效性。人类反馈与环境的有效性可以使智能体验证其行动结果。行动可以具有感知模块、低级运动规划器和控制器,特别是在机器人和自动驾驶中。特别是,感知模块,像人类的感觉系统,即眼睛和耳朵,感知环境的变化,然后将多模态信息转换为智能体的统一表示。如果智能体配备了记忆模块,记忆回忆可以是行动策略,使智能体能够根据存储在记忆模块中的经验做出决策。智能体可以利用多轮来确定适当的响应作为行动,特别是对于对话目的的聊天智能体。行动的后果可能包括环境的变化、智能体内部状态的变化、新行动的启动以及在人工智能交互场景中对人类感知的影响。

4.2 推理与决策制定

推理对人类智能至关重要,是解决问题、决策制定或规划以及关键分析的基础。演绎、归纳和溯因是推理的主要形式。传统的推理主要依赖于符号方法或模仿/强化学习基础的方法。但观察到这些方法有几个缺点。符号方法需要将自然语言描述的问题转换为规则,这可能需要手动帮助。大多数情况下,这种方法对错误敏感。模仿学习(IL)和强化学习(RL)方法通常与深度神经模型结合使用,作为策略网络、价值函数或奖励模型。虽然RL方法需要大量的样本(与环境的交互),但IL算法很难处理看不见的场景。对于基于LLM的智能体,像人类一样,推理对于解决复杂任务至关重要。它们可能在预训练或微调期间拥有推理能力,或者在达到一定规模后出现。思维链(CoT)是LLMs中推理的代表性方法,它通过提示中的少量语言示例逐步解决复杂的推理问题。通过将复杂任务分解为可执行的子任务,LLMs制定计划和决策的能力显著提高。CoT的扩展包括思维树(ToT)和思维图(GoT),假设人类倾向于以树状或图状的方式思考。多路径思维进一步增强了智能体解决更复杂规划任务的能力。推理通过规划或决策制定进行。规划模块使基于LLM的智能体具有推理和规划任务的能力,无论是否有反馈。与传统智能体调用规划方法如Dijkstra和POMDP以获得最佳行动和计划不同,基于RL的智能体需要学习策略。基于LLM的智能体从LLM实现其规划能力。此外,LLMs在意图理解和其他方面显示出显著的潜力。

基于LLM的智能体可能无法通过提示达到正确的知识,甚至面临幻觉问题。专门的工具使LLMs能够增强其专业知识并适应领域知识。基于LLM的智能体的决策过程缺乏透明度,在高风险领域不太可靠。此外,LLMs对对抗性攻击不容忍。量身定制预训练模型的力量,只需少量数据进行微调,LLMs就可以在下游任务中表现出更强的性能。与仅作为固定知识库的功能不同,基于LLM的智能体表现出适应新任务的强大学习能力。指令调整的LLMs展示了无需微调的零样本泛化。LLMs可以通过遵循指令,在训练阶段未出现的新任务中实现。通过将原始输入与几个示例作为提示结合起来,少量上下文学习(ICL)提高了LLMs的预测性能,以增强上下文。为了模仿人类在反馈经验方面的能力,可以设计规划模块以从环境、人类和模型接收反馈,提高基于LLM的智能体的规划能力。外部反馈作为规划成功或失败的直接评估,构建闭环规划。

4.3 记忆+反思

记忆模块在AI智能体中起着关键作用。它存储从环境感知中提取的信息,并将存储的记忆应用于促进未来的行动。记忆模块可以帮助智能体收集经验、自我学习和以更合理和有效的方式行动。短期记忆保持并以符号形式保留相关信息,确保其在决策过程中的可访问性。长期记忆从早期决策过程中积累经验,包括历史事件流、用户与智能体或其他形成智能体经验的交互信息。反思模块旨在使智能体能够压缩和推导出更高级的信息,或自主验证和验证其行动。它帮助智能体解释属性、偏好、目标和连接,从而监督它们的行为。它以多种形式出现:(1)自我总结。(2)自我验证。(3)自我纠正。(4)移情。通过LLMs辅助的智能体,利用内部反馈机制,通常会产生来自预先存在的模型的见解,以改进和增强规划方法。它们可能从真实或虚拟环境中获得反馈,例如任务完成或行动响应的提示,帮助它们修订和完善策略。

4.4 泛化与自主学习

少量上下文学习(ICL)通过将原始输入与几个示例作为提示连接起来,以增强上下文,从而提高LLMs的预测能力,其关键思想类似于人类的学习过程。指令调整的LLMs展示了无需特定任务微调的零样本泛化。提示对于合理的预测至关重要,直接对提示进行训练可以增强模型对看不见任务的鲁棒性。通过扩大模型规模和训练指令的多样性,可以进一步提高泛化水平。智能体需要将用户在上下文中学到的工具使用技能泛化到新情况下,例如在Yahoo搜索上训练的模型转移到Google搜索上。

如果给出指令和演示,基于LLM的智能体还具有通过生成可执行程序构建工具的能力,将当前工具整合为更强的工具,或者它们可以学习执行自我调试。PaLM-E展示了对新对象或现有对象组合的零样本或单样本泛化能力。Voyager利用技能库组件不断收集新的自我验证技能,这支持AI智能体的终身学习能力。基于LLM的智能体利用LLMs的规划能力,通过持续学习,例如课程学习,来应对更复杂的挑战,以应对灾难性遗忘的挑战。

4.5 个性(情感+性格)和协作行为(多智能体)

正如人类个性是通过社会化形成的,智能体也通过与他人和环境的互动展示一种个性。个性的定义指的是三个特征:认知、情感和性格。认知能力通常被定义为获取知识的心理过程,如决策制定、规划和解决问题。情感包括主观情绪,如愤怒或快乐。基于LLM的智能体包括对情感的详细理解。更狭窄的个性概念属于性格模式。LLM的提示工程涉及性格模式或其他属性的浓缩摘要。通过接触丰富的人格数据集,基于LLM的智能体配备了人格描绘。在社会环境中,AI智能体应该与其他智能体甚至人类合作或竞争,以激发更好的表现。AI智能体可能被赋予需要共同工作或互动环境的复杂任务。集体智能是一个将意见集中到决策的过程中。它来自智能体之间的协作和竞争,出现在基于共识的决策模式中。通过利用智能体社会内的通信,可以模仿人类社会的演变并获得见解。

5 结论

在本文中,AI智能体的级别是基于效用和强度进行分类的,类似于SAE对自动驾驶的自动化级别。对于每个级别,前一个级别的额外模块可以提供更强的AI能力和智能体效用。从级别0到级别3,AI核心已经从无AI发展到基于规则的AI、基于IL/RL的AI到基于LLM的AI。

参考资料

文章:《Levels of AI Agents: from Rules to Large Language Models》

作者:Yu Huang, Roboraction.AI

链接:https://arxiv.org/pdf/2405.06643

记得点赞、分享,让更多的朋友一起探索这个IT世界的新篇章!

记得按时休息

推荐阅读

【Agent】Coze(扣子)一个国内版的类GPTs,使用指南(入门篇)

【Coze教程】从0到1搭建你的第一个AI Bot(飞书知识库助理)

【机器人】具身智能(Embodied AI)的概念、核心要素、难点及突破性进展

【AI教学】生成式AI教育图谱2024

【流程管理】流程管理的发展历程

【Agent】几款AI多智能体框架

大模型和智能体综述

【Agent】Coze多智能体(Multi-Agents)模式体验!

【AI教学】生成式AI教育图谱2024

从码农到AI大师:AI工程师定位与成长全攻略!

【AI绘画】WebUI、Comfy UI与Stable Diffusion关系与选择!一文理清

数字孪生技术综述与展望

AI 推理:CPU 的崛起

【云计算】云计算技术栈,了解云计算知识戳这里!!!

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OYqqEtbP1uTI1onxSvLinvrg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券