最近陆陆续续的发布了很多的智能体,有拿Agent做唯一产品的Manus这样的明星产品,还有@夕小瑶团队开发的Teamo;以及本身就是大模型产品基于自己模型开发的Agent,比如Kimi的Kimi-researcher,以及MiniMax最近开源周放出来的MiniMax Agent。
但如果仔细观察的话,这些公司的产品中有一个大类是共通的,那就是去解决一个问题:「怎么去写好一份报告?」
这几个产品,包括古早就出现的OpenAI和Gemini都有的Deep Research功能,其实也是在做类似的事情,而这件事情想要做好,想要依靠单独的某个模型,在现在的技术体系下绝无可能,从问题到结果,最少需要三个能力。
联网搜索:大模型的记忆大多停留在2024年,这是因为大模型的固有训练逻辑,从训练好,到微调,再到最终发布,几个月到半年起,所以你问他现在的事情,必须通过联网搜索获取。
推理思考:资料搜集是一方面,而搜索大多依赖于关键字,很多关键字对应的信息其实是有冲突的,信息冲突只是其中一方面,而碰到冲突就需要大模型得具备推理和思考的能力,像人一样的去做判断。
访问信息:搜集到的信息可能有很多种类型,最普通的就是网页上的文字,但如果碰到的是图片上的文字,视频信息甚至一些质量很差但是唯一信源的声音信息,起码的广泛的信息访问技术是必要的。
你会发现,不可能有任何一个单一的大模型可以完成「怎么去写好一份报告这件事」,不管怎么样,都需要给现有的大模型加一些插件才行,而这个过程,其实跟“人类和动物的最大区别是对于工具的使用”异曲同工。
AI Agent并没有本质上提升某个模型的智力,只不过是学会了如何使用工具而已。
而如何使用工具,使用说明工具以及多大程度的依靠工具,就产生了现有的实现AI Agent智能体的三种方法:
单体推理模型:典型如OpenAI,这种架构的核心思想是依赖一个单一、巨大且能力全面的大语言模型来统一处理任务的各个方面,包括理解查询、规划步骤、执行工具(如搜索)以及综合信息生成最终答案。
多模型智能体模型:Teamo非常典型,这种架构将一个复杂的任务分解成多个子任务,并为每个子任务分配一个专门的、角色清晰的AI智能体。这些智能体在一个“主管”或协调者的管理下协同工作,共同完成最终目标。并且根据不同任务的特性使用不同的模型,比如写代码用Claude,论文写作用Gemini,讲究的是借力。
RAG中心化智能体:Perplexity是代表,这种架构的设计哲学将事实准确性置于最高优先级。其核心是检索增强生成(Retrieval-Augmented Generation, RAG)。整个工作流程围绕“先检索,后生成”展开:首先,系统实时从可信的外部来源(如互联网)检索与查询相关的信息;然后,利用大语言模型将这些检索到的、有事实依据的信息进行综合、提炼和组织,最终生成答案。
单体推理模型
对于单体推理模型来说,最常见的就是大模型公司,比如OpenAI的Deep Research,MiniMax,以及Kimi的Researcher,他们的Agent就是基于自身大模型的产品,所以于情于理也不可能用别家的,这是大模型公司做应用的执念,即使只是暂时的。
下图从左到右,从上到下分别是OpenAI的Deep Research,MiniMaX Agent,Kimi Researcher,Gemini的Deep Research。
这4个例子的背后公司肯定会有一个主打的模型,比如OpenAI的o系列,Kimi的k系列,以及MiniMax最近刚刚出的M1模型,Gemini的Gemini-2.5系列,都是在大模型领域非常能打的存在。也依靠他们的明星产品拥有不少的忠实用户,这是他们能做单体推理模型的底气。
优势
强大的通用推理与灵活性:由于所有任务都在一个统一的“思维空间”内完成,单体模型可能发展出更强的通用问题解决能力。它不受限于预设的、僵化的角色分工,因此在面对从未见过或结构模糊的复杂任务时,可能表现出更高的灵活性和适应性。
整体性理解:模型能够对任务形成一个连贯、整体的理解,因为从输入到输出的所有中间步骤和思考过程都是内在关联的,而不是在不同模块间传递。
劣势
更高的“幻觉”风险:这是该架构最主要的弱点。强大的生成能力意味着模型在信息不足或推理出错时,更容易“编造”事实,即产生幻觉。OpenAI也明确指出,其Deep Research智能体虽然比普通模型出错率低,但仍会偶尔产生幻觉,并且在区分权威信息和网络谣言方面存在困难。
不透明的“黑箱”问题:推理过程是模型内部的复杂神经活动,外界难以精确地审视其决策逻辑。当模型给出一个答案时,我们很难完全理解它是如何一步步推导出来的,这在需要高可靠性和可解释性的关键应用中是一个重大障碍。
巨大的计算成本:训练和运行一个能处理所有任务的、最前沿的单一模型,需要极其庞大的计算资源和资金投入。
总的来说,单体推理模型需要一个非常强的AI大模型,不然智力程度完全不够,但这也需要前提投入大量的资金先去做模型,然后再基于此作应用。再加上在做应用的时候只用自家模型,所以模型的缺点肯定也会带到Agent上。
多模型智能体模型
多模型智能体模型,往往存在于主营业务甚至就智能体这一个业务,他们要实现的就是极致的效果和性能,所以他们会针对于不同的任务采用不同的模型,选择的多样性和灵活度要远高于单体推理模型。
比如Teamo,非常的经典多模型智能体,下图就是Teamo设置不同Agent,主要分为几个组,比如搜索组、写作组、咨询组和一些未上线的组别,并且每个组都有组长和组员不同角色。
细看的话,搜索组的搜索员就只有两个模型可以用,Claude-4-sonnet和Opus,这么说吧,这俩模型在大模型领域的定价算是非常贵的那种了,如果不是在实践中发现这俩模型的性能最好,或者说只有这俩模型的性能才能满足需求,那断然不会只用这俩的。
通用深度写作员就是一个例子,你可以看到它可用的模型有很多,Gemini-2.5-Pro,DeepSeek-V3,GPT,Claude,甚至不常见的Grok3都有。
这几个之间的价格差别还是比较明显的,像DeepSeek这种开源模型价格要远低于闭源模型,但是实践中发现这些模型之间的实际表现估计差别不明显。
Manus也一样,据其中一个创始人,Manus主要用的两家模型,Claude和Qwen,估计也是考虑到了性能和价格之间的平衡,只用Claude的确要贵不少。
优势
流程透明且可控:由于任务被明确地分解到不同的专业智能体,整个工作流程变得清晰可见。例如,可以看到“生成”智能体提出了哪些假设,“反思”智能体又如何对其进行评估。这种模块化设计使得调试、监督和干预变得更加容易。
专业分工带来的高质量:每个智能体都可以被专门优化以精通其特定任务。就像人类团队一样,让“创意专家”负责头脑风暴,让“批判专家”负责评估,理论上可以在每个环节都达到更高的质量水平。
任务并行处理:不同的子任务可以由多个智能体同时执行,从而可能提高整体的效率和速度。
劣势
通信与协调开销:智能体之间需要高效地沟通和传递信息,这会引入额外的计算开销和系统复杂性。如果协调机制设计不当,可能会导致效率瓶颈。
管理复杂性高:设计和管理“主管”智能体与各个专业智能体之间的复杂互动是一项挑战。整个系统的最终表现高度依赖于这种协调与管理机制的优劣。
创业公司青睐这种方式,毕竟不需要自己做模型,只需要用现成的,还可以什么好用就用什么,不好用立马下线,但缺点也很明显,就是被复制的概率非常大,因为核心技术依赖于大模型,而次核心的工程技术容易被大公司用人海战术迅速追上甚至反超。
RAG中心化智能体
这种智能体其实不算多,因为它的设计哲学偏向于「索引」,这就意味着「检索」的优先级最高,简单来说就是收集更多的信息,然后交给大模型去整理。而这里面资料的储存和利用就用了RAG这个技术,它的全名叫检索增强生成(Retrieval-Augmented Generation)。
可以根据下面的图来理解,比如我们问2025年6月22日人民币和美元的汇率是多少,那么没有联网的大模型绝对不可能知道,因为它的固有缺陷(训练数据滞后于模型发布时间)。所以这个时候就需要先去联网获取外部资料,然后大模型去根据外部资料去做回答。
这里面的典型模型其实就有知乎直答、秘塔AI搜索和Perplexity AI,都是先做大量的检索,然后根据检索资料进行汇总和分析。
这里面的区别就是检索信息来源的不同,每家平台会采用不同的信源,像知乎就用的自己平台回答多一些,微博和腾讯元宝也有类似的功能,都是优先采用自己的信源。
这种用的模型一般都是自研或者开源模型,因为它的核心在于信息的“可溯源”,而这一点儿只需要大模型照章办事即可。
优势
极高的事实准确性与可追溯性:这是该架构最突出的优点。由于所有答案都牢固地植根于检索到的真实世界信息,并且总是附带来源引用,用户可以轻松验证信息的真伪。其核心原则是“不生成任何未检索到的信息”。
幻觉风险极低:大语言模型在这里的主要角色是“组织者”和“转述者”,而非“创作者”。因为它不依赖其内部记忆来生成事实性内容,所以产生幻觉的风险被降到了最低。
来源透明:用户能清晰地看到每一条信息来自何处,这在学术研究、新闻调查等需要严肃事实核查的场景中至关重要。
劣势
能力受限于可检索的信息:系统的能力上限被其信息检索系统所束缚。如果一个问题的答案无法通过现有渠道检索到,那么该系统也无法凭空创造出来。
纯粹抽象推理和创造力受限:对于那些需要超越现有数据、进行纯粹逻辑推演或提出全新原创概念的任务,这种方法表现不佳。它擅长综合已知,而非探索未知。
它的优劣势很明显,信息可溯源就是最大的优势,但同样限制了大模型的能力,就是严重受限于检索到的数据质量,同时它也不太可能突破现有信息的限制,去创造新的知识。
这三种当下的Agent范式都有各自的优缺点,特别是在实现上其实重合的地方很多,不过各自的侧重点是能让各自都能在领域里面脱颖而出的主要原因。这个新兴市场的未来演进路径正逐渐清晰。
当前一代的研究智能体,主要专注于自动化现有的「人类资料密集型工作」流程,例如文献综述、事实查找、行动规划等。不过未来不管是AI还是AI Agent,都不可能止步于总结现有人类的知识或者经验,而是更多的将精力投入到「发现或者发明」新的知识上。
领取专属 10元无门槛券
私享最新 技术干货