首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

加速 AI 开发:利用 LLMs 和 MCP 实现 2025 年更强的泛化能力

随着大型语言模型(LLMs)在现代人工智能系统中变得越来越重要,对更通用和可扩展架构的需求也在不断增长。在这篇文章中,我们将探讨从LLMs和微调到代理框架的演变,以及新MCP(模型-客户端协议)在标准化模型-工具集成中的作用。

预览图知识LLMs作为知识库

LLMs(大型语言模型)是基于大量语言数据集训练的人工智能模型。它们作为统计知识库,能够根据自然语言输入生成相关输出。

未经微调的基础模型可以执行:

1. 句子补全

2. 文本生成(如论文、代码或故事)

3. 翻译(如果在多语言数据上训练)

然而,这些模型缺乏任务意识。它们并不内在理解或遵循指令;相反,它们根据训练数据中的模式预测文本。

智慧

微调以实现特定目的和指令

为了实现特定任务的行为,基础LLMs通过指令-响应对进行微调。这个过程教会它们如何响应结构化提示。

例如,如果用户询问:“总结这一段”,微调后的模型理解该指令并提供摘要,而不是继续段落。

微调后的模型可以是:

1. 遵循指令的(例如,摘要、翻译)

2. 对话式的(例如,ChatGPT)

3. 特定领域的(例如,法律或医疗应用)

一些系统使用多个微调模型来更有效地处理不同的任务或领域。

泛化

两种泛化方法

向通用人工智能系统迈进的主要策略有两种:

1.训练和微调多个模型,以覆盖广泛的任务和领域。这解释了当前生态系统中专门化LLMs的迅速增长。

2.扩展现有模型,使其具备超出训练和微调所能提供的能力。

第一种方法,微调是资源密集型的,并且并不适用于每一个潜在的用例。每个新需求都需要自己的模型或训练管道,这限制了灵活性并减缓了创新。

第二种方法被证明更具可扩展性和灵活性,尤其是在能够实时访问工具和数据时。

利用工具和数据扩展模型能力

为了实现动态行为,现代系统将LLMs与:

外部数据源集成,提供超出训练集的知识。

工具集成,使模型能够执行API调用、数据库查找、代码执行等操作。

这些工具充当模型在需要时可以调用的外部功能。这种设计使模型能够超越响应生成,参与推理、规划和执行。

代理框架与集成挑战

为了支持这些扩展能力,出现了多个编排框架,包括:

• LangChain

• CrewAI

• OpenAI Operator

• AutoGen

• 其他

这些框架使LLMs能够:

1. 链接多步骤推理过程

2. 调用工具或插件

3. 与API、向量数据库和外部系统集成

然而,每个框架定义了自己管理集成的方式。没有标准化的协议来规范模型与工具之间的通信,导致碎片化和有限的互操作性。

引入MCP:模型-客户端协议

MCP(模型-客户端协议)由Anthropic提出,旨在通过提供标准化的客户端-服务器协议来解决这一空白,以便进行模型-工具交互。

MCP提供:

1.与模型无关的接口,用于调用外部工具和系统。

2.标准化格式,用于结构化请求和响应。

3.供应商中立的方法,允许框架和工具无缝互操作。

该协议允许模型动态扩展——而不需要紧密耦合于特定的编排框架或集成方法。

MCP的工作原理

以下是MCP交互模式的简化概述:

无交互步骤:

1. 模型经过微调,以识别何时需要帮助(例如,获取天气、进行计算)。

2. 它输出一个结构化和通用的请求,不依赖于任何特定系统。

3. MCP客户端捕获此输出,识别任务,并通过MCP服务器将其路由到适当的工具。

4. MCP服务器通过其集成执行请求。

5. 响应返回给客户端,客户端将其传递回模型。

6. 模型利用这些额外的上下文为用户生成最终输出。

这种交互可以是迭代的,允许模型在中间工具调用中进行多步骤推理。

MCP与代理框架的区别

MCP并不打算取代像LangChain或CrewAI这样的框架。相反,它通过充当通用协议层来补充它们。

虽然LangChain编排逻辑流和工具使用,但MCP标准化了如何访问和与这些工具交互——使构建可移植的、模块化的人工智能系统变得更加容易,这些系统可以跨平台工作。

MCP的演变仍处于早期阶段,尚不清楚它是否会成为主导标准。但它显然解决了当今代理系统中的一个关键限制。

世界模型

展望未来:走向运行时智能和AGI

随着我们进一步迈向人工通用智能(AGI),当前的架构——模型依赖于通过MCP服务器预定义的工具、集成和数据源——将继续演变。

在不久的将来,工具、系统连接器和数据访问模块的生成将不再是预配置的,而是由模型本身在运行时动态创建。这些MCP服务器功能将变得可组合和自适应,基于父模型识别的独特目的或任务构建。

这意味着:

• 工具将不再是静态定义的,而是按需生成

• 集成逻辑将基于用户目标上下文推断和构建

外部数据获取机制将动态定制,使用辅助模型来实时发现、构建或甚至编码这些交互。

最初,这种动态方法可能会缓慢或计算成本高,但随着时间的推移,我们可以期待:

优化的工具生成和重用流程

社区或模型构建的可重用工具模板、集成和API库

• 更加高效的基础设施以支持这种灵活性和自主性。

如果这一轨迹持续——并且这些能力变得快速、可概括和自我改进——我们将见证一个世界模型架构的基础,能够适应任何现实世界的问题。到那时,AGI不再是一个理论目标,而是一个功能现实。

结论

我们正在见证LLM能力的进步:

第1级——从生成文本的模型,

第2级——到遵循指令的模型,

第3级——到能够推理、行动并与工具和系统集成的模型。

第4级——到能够自我改进、适应并演变以提高效率的模型。

随着我们朝着更强大和灵活的AI系统迈进,泛化、可扩展性和标准化将是关键。MCP为实现模型无关、工具驱动的大规模智能提供了一个有前景的前进步骤。

附加阅读:关于世界模型的个人想法,

世界模型:走向自适应、演变的智能

如果模型能够在运行时动态生成工具、构建系统连接器以及获取或合成知识——而不受限于预配置的能力——我们就开始接近许多人所称的世界模型

世界模型不仅仅是一个具有外部工具的大型语言模型。它是一个可以:

• 理解复杂目标。

• 分析并将任务分解为更小的子任务。

• 按需组装所需的工具、数据访问机制或推理路径。

• 以自适应、自主的方式与外部系统、API甚至其他模型进行交互。

这一愿景使我们远离构建狭窄目的模型或僵化管道的方式。相反,我们设想模型能够:

通过调用专门的辅助模型或代码生成器生成运行时基础设施

构建和维护不断演变的知识库,不断从与世界的互动中学习。

对推理本身进行推理——决定如何处理问题、何时寻求外部帮助以及何时独立行动。

与其他智能体协调,形成动态的认知网络,可以跨任务或领域进行协作。

如果这样的系统变得高效、快速且有效——能够实时决策和执行——我们不再仅仅是在与智能工具进行交互。我们正在见证自适应、世界感知智能的出现。

到那时,AGI可能不会以单一的整体模型形式出现,而是作为一组自组织、自扩展的模型生态系统,能够感知、推理、构建和演变。

这是我们正在稳步迈向的未来——而类似MCP的协议、运行时工具生成和智能编排正在为此奠定基础。

深入阅读的资源

1.Anthropic的模型-客户端协议(MCP)官方提案和技术说明https://docs.anthropic.com/mcp

2.苦涩的教训 — Rich Sutton(2019)关于为什么通用性和学习比手动编码系统更重要的基础性文章。http://www.incompleteideas.net/IncIdeas/BitterLesson.html

3.自我指导:使语言模型与自生成指令对齐(2022)引入指令调优——从基础模型到智能模型演变的关键里程碑。https://arxiv.org/abs/2212.10560

4.Toolformer:语言模型可以自我学习使用工具(Meta AI,2023)展示了LLM如何自主学习调用工具——直接与您的AGI愿景对齐。https://arxiv.org/abs/2302.04761

5.ReAct:在语言模型中协同推理和行动(2022)描述了将推理与工具使用相结合的方法——在LangChain和CrewAI中广泛使用。https://arxiv.org/abs/2210.03629

tags: #genai #agi #mcps #world-models #llm

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OUCSYF81t2Yc4ze1BvzOuutw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券