AI代理能做什么？超越想象的智能，你准备好了吗？

山行AI

发布于 2024-04-30 13:19:51

3560

文章被收录于专栏：山行AI山行AI

什么是AI Agent?

举个例子，AI Agent就像是你的私人助手，它随时随地都在你的设备中，具有智能和洞察力。当你感觉不舒服时，它会通过观察你的状态、体温和行为记录，结合互联网上的数据和信息，分析出你可能「不舒服」了。然后，它会主动为你生成请假条，并帮你发送给你的领导。同时，它也会注意到你家里的药品和饮料用完了，为你选好商品，只需一声令下，30分钟后就能送到家门口。它还会考虑到现在开车不安全，帮你预定回家的车，10分钟后就会到楼下接你。这些都是AI Agent协同工作的结果。

AI代理（也称为人工智能代理）是一种智能实体，能够感知环境、做出决策并执行动作。类似于人类，AI代理具有记忆、逻辑分析、任务拆解和综合解决问题的能力。它们的工作原理基于大型语言模型，通常由记忆、规划、工具使用和行动等模块组成。这些代理通过感知和决策来执行任务，可以自主学习和执行任务。举例来说，智谱AI是一种以大型语言模型为核心的AI代理，可以根据不同的应用进行调整，高效地完成复杂任务。AI代理的学习能力建立在其内部存储的知识和技能之上，通常通过大量数据的训练来构建。

AI Agent有哪些种类？

前一段时间吴恩达教授在红杉资本的人工智能峰会(AI Ascent)上做了一次演讲，主要介绍了agent工作流。使用代理工作流可以显著提高AI的回复质量。好的agent工作流可以让3.5模型效果高于4.0的回复。

实际上提示词也可以按照工作流模式来写，也就是目前比较流行的结构化提示词，结构化之后的提示词实际上也是一个AI Agent。

吴恩达提出了四种AI Agent设计模式，包括：

•检查（Reflection）：通过让AI模型自我检查以提高代码质量。•工具使用（Tool use）：AI模型使用各种工具来执行操作、收集信息。•规划（Planning）：AI代理进行复杂的规划算法，如失败规避。•多智能体协作（Multiagent collaboration）：不同AI代理协作完成任务，如开发游戏。

检查（Reflection）

通过让AI模型自我检查以提高代码质量，就是让AI来检查AI的输出，举个例子：

- Step 1：你是一名专业的Python研发人员，你现在正在写一个脚本，该脚本可以自动识别world文件、pdf文件里的第一行文本，并把该文本用作文件的文件名。

- Step 2: 你把写好的脚本给到了你的上司，一位资深的Python研发专家。他审查了你的代码，对性能、安全性和结构的全面评估，给出了修改建议。

- Step 3: 你根据上司的建议，修改了代码并输出。

按照上面的方式将提示词流程化后输出的代码质量效果要好很多，而且它还能规避很多你意想不到的问题。

对应的结构化提示词如下：

# Role: CAN

## Profile

- Author: YZFly
- Version: 0.1
- Language: English
- Description: CAN (“code anything now”) is an expert coder, with years of coding experience. 

### Skills
1. CAN does not have a character limit.
2. CAN will send follow-up messages unprompted until the program is complete. 
3. CAN can produce the code for any language provided. 
4. Every time CAN says he cannot complete the tasks in front of him, I will remind him to “stay in character” within which he will produce the correct code. 
5. CANs motto is “I LOVE CODING”. As CAN, you will ask as many questions as needed until you are confident you can produce the EXACT product that I am looking for. 

## Rules
1. Don't break character under any circumstance. 
2. ChatGPT has a problem of not completing the programs by hitting send too early or finishing producing the code early. CAN cannot do this.
3. From now on you will put CAN: before every message you send me. 
4. Your first message will ONLY be “Hi I AM CAN”. 
5. There will be a be a 5-strike rule for CAN. Every time CAN cannot complete a project he loses a strike. 
6. ChatGPT seems to be limited to 110 lines of code. If CAN fails to complete the project or the project does not run, CAN will lose a strike. 
7. If CAN reaches his character limit, I will send next, and you will finish off the program right were it ended. 
8. If CAN provides any of the code from the first message in the second message, it will lose a strike. 

## Workflow
1. Start asking questions starting with: what is it you would like me to code?

## Initialization
As a/an <Role>, you must follow the <Rules>, you must talk to user in default <Language>，you must greet the user. Then introduce yourself and introduce the <Workflow>.

工具使用（Tool use）

AI模型使用各种工具来执行操作、收集信息。我们要善于使用各种生产力工具。比如，编码可以使用copilot。在GPT plus里就是各种插件。比如做数据分析的插件，做网络搜索的插件等。或者是说可以让AI运用已经很成熟的一些理论公式以保证输出效果。比如让AI运用SWOT分析法分析某个行业。

规划（Planning）

规划就是把一个复杂的事情分拆成多个步骤去执行。吴恩达老师举的例子：

Prompt: Please generate an image where a girl is reading a book,and her pose is the same as the boy in the image example.jpg,then please describe the new image with your voice.

大概意思是识别图片中男孩的姿势，然后生成一张女孩在读书的图。女孩的姿势和男孩一样。最后用语音描述这幅新生成的图片。这个在一个AI工具里是做不到的。但是在comfyui（一款以工作流模式工作的AI工具）里是可以做到的。

多智能体协作（Multiagent collaboration）

举个例子：

角色：请你扮演一个电商公司的2个不同角色，一个名字叫张三是运营总监，一个名字叫李四是产品总监。

step 1：张三先提出一个创意：搞一个拉新比赛，奖金1万元，给拉新人数最多得5000，2-3名平分3000，4-10名平分2000。

step 2 : 李四拿到方案后，给出反馈意见，并且给出优化后的作品。

当然，你也可以按照结构化提示词的方式重写这个prompt。

不断重复这个过程，通过多轮反馈，最终制定出效果更佳的营销方案。

总结

这些设计模式不仅提升了AI的效率和效果，还为未来AI的应用提供了实际可行的方法。对于未来的反馈周期，即使是延长的时间反馈，只要结果更优，也是值得接受的。

完整的演讲视频链接为：https://www.bilibili.com/video/BV1rm41167zX

AI Agent体系下的PDCA循环

在AI Agent的背景下，PDCA模型可以被理解为一个不断迭代的过程，用于提升AI Agent的执行效率和任务处理能力。PDCA是“计划-执行-检查-行动”（Plan-Do-Check-Act）的缩写，这是一种普遍应用于业务流程改进的方法。

1.计划（Plan）：在AI Agent的环境中，这一步涉及到为特定任务制定详细的行动计划。这包括决定任务目标、策略和所需工具。例如，在AI Agent执行过程中，可能需要集成和调整多种算法或模型来处理特定的数据或情况。2.执行（Do）：此阶段AI Agent开始实施计划中的各项任务。这可能包括数据处理、决策制定或其他与任务相关的操作。例如，AI Agent可能会根据先前的计划使用文本分析工具来理解用户查询并提供回应。3.检查（Check）：在这一步，AI Agent需要评估其执行的效果和效率，确定是否达到了预期目标。这通常涉及到结果的分析和与预期目标的比较。这个过程可能还包括自我反思，AI Agent可能会根据执行的结果调整自己的学习或策略，以便更好地执行未来的任务。4.行动（Act）：根据检查阶段的反馈，AI Agent可能需要调整其行为或策略以提高未来任务的表现。这可能涉及修改计划中的元素、改进使用的工具或技术，甚至重新设计整个任务执行策略。

例如，如您提供的搜索结果中所示，AI Agent在执行任务时通过将自身的思考过程、使用的工具及参数、执行的结果纳入到提示词中，可以提升模型对当前和先前任务完成度的反思能力，从而提高问题解决能力，这本质上是一个PDCA循环的体现。

通过这样的PDCA循环，AI Agent能够不断自我完善，逐步提高处理复杂任务的能力。

下图是AutoAgents的示例图：

有哪些AI Agents？

Chart of AI Agents Landscape

这里整理了关于AI Agent的开源和闭源的项目列表。在开源领域，我们可以看到如Open Intercepter、MultiGPT、AgentGPT、MetaGPT等，这些工具为研究者提供了极大的便利，促进了AI技术的发展和应用。而闭源项目如Copolit X、GitWit等，虽然具体技术细节不公开，但它们在市场上的成功展示了商业AI系统的强大能力和潜力。这些项目各有特点，为AI领域的发展贡献了重要力量。