文章/答案/技术大牛

发布

加速 AI 开发：利用 LLMs 和 MCP 实现 2025 年更强的泛化能力

文章来源：企鹅号 - RifxOnlineAI

随着大型语言模型（LLMs）在现代人工智能系统中变得越来越重要，对更通用和可扩展架构的需求也在不断增长。在这篇文章中，我们将探讨从LLMs和微调到代理框架的演变，以及新MCP（模型-客户端协议）在标准化模型-工具集成中的作用。

预览图知识LLMs作为知识库

LLMs（大型语言模型）是基于大量语言数据集训练的人工智能模型。它们作为统计知识库，能够根据自然语言输入生成相关输出。

未经微调的基础模型可以执行：

1. 句子补全

2. 文本生成（如论文、代码或故事）

3. 翻译（如果在多语言数据上训练）

然而，这些模型缺乏任务意识。它们并不内在理解或遵循指令；相反，它们根据训练数据中的模式预测文本。

智慧

微调以实现特定目的和指令

为了实现特定任务的行为，基础LLMs通过指令-响应对进行微调。这个过程教会它们如何响应结构化提示。

例如，如果用户询问：“总结这一段”，微调后的模型理解该指令并提供摘要，而不是继续段落。

微调后的模型可以是：

1. 遵循指令的（例如，摘要、翻译）

2. 对话式的（例如，ChatGPT）

3. 特定领域的（例如，法律或医疗应用）

一些系统使用多个微调模型来更有效地处理不同的任务或领域。

泛化

两种泛化方法

向通用人工智能系统迈进的主要策略有两种：

1.训练和微调多个模型，以覆盖广泛的任务和领域。这解释了当前生态系统中专门化LLMs的迅速增长。

2.扩展现有模型，使其具备超出训练和微调所能提供的能力。

第一种方法，微调是资源密集型的，并且并不适用于每一个潜在的用例。每个新需求都需要自己的模型或训练管道，这限制了灵活性并减缓了创新。

第二种方法被证明更具可扩展性和灵活性，尤其是在能够实时访问工具和数据时。

利用工具和数据扩展模型能力

为了实现动态行为，现代系统将LLMs与：

•外部数据源集成，提供超出训练集的知识。

•工具集成，使模型能够执行API调用、数据库查找、代码执行等操作。

这些工具充当模型在需要时可以调用的外部功能。这种设计使模型能够超越响应生成，参与推理、规划和执行。

代理框架与集成挑战

为了支持这些扩展能力，出现了多个编排框架，包括：

• LangChain

• CrewAI

• OpenAI Operator

• AutoGen

• 其他

这些框架使LLMs能够：

1. 链接多步骤推理过程

2. 调用工具或插件

3. 与API、向量数据库和外部系统集成

然而，每个框架定义了自己管理集成的方式。没有标准化的协议来规范模型与工具之间的通信，导致碎片化和有限的互操作性。

引入MCP：模型-客户端协议

MCP（模型-客户端协议）由Anthropic提出，旨在通过提供标准化的客户端-服务器协议来解决这一空白，以便进行模型-工具交互。

MCP提供：

1.与模型无关的接口，用于调用外部工具和系统。

2.标准化格式，用于结构化请求和响应。

3.供应商中立的方法，允许框架和工具无缝互操作。

该协议允许模型动态扩展——而不需要紧密耦合于特定的编排框架或集成方法。

MCP的工作原理

以下是MCP交互模式的简化概述：

无交互步骤：

1. 模型经过微调，以识别何时需要帮助（例如，获取天气、进行计算）。

2. 它输出一个结构化和通用的请求，不依赖于任何特定系统。

3. MCP客户端捕获此输出，识别任务，并通过MCP服务器将其路由到适当的工具。

4. MCP服务器通过其集成执行请求。

5. 响应返回给客户端，客户端将其传递回模型。

6. 模型利用这些额外的上下文为用户生成最终输出。

这种交互可以是迭代的，允许模型在中间工具调用中进行多步骤推理。

MCP与代理框架的区别

MCP并不打算取代像LangChain或CrewAI这样的框架。相反，它通过充当通用协议层来补充它们。

虽然LangChain编排逻辑流和工具使用，但MCP标准化了如何访问和与这些工具交互——使构建可移植的、模块化的人工智能系统变得更加容易，这些系统可以跨平台工作。

MCP的演变仍处于早期阶段，尚不清楚它是否会成为主导标准。但它显然解决了当今代理系统中的一个关键限制。

世界模型

展望未来：走向运行时智能和AGI

随着我们进一步迈向人工通用智能（AGI），当前的架构——模型依赖于通过MCP服务器预定义的工具、集成和数据源——将继续演变。

在不久的将来，工具、系统连接器和数据访问模块的生成将不再是预配置的，而是由模型本身在运行时动态创建。这些MCP服务器功能将变得可组合和自适应，基于父模型识别的独特目的或任务构建。

这意味着：

• 工具将不再是静态定义的，而是按需生成。

• 集成逻辑将基于用户目标上下文推断和构建。

•外部数据获取机制将动态定制，使用辅助模型来实时发现、构建或甚至编码这些交互。

最初，这种动态方法可能会缓慢或计算成本高，但随着时间的推移，我们可以期待：

•优化的工具生成和重用流程。

•社区或模型构建的可重用工具模板、集成和API库。

• 更加高效的基础设施以支持这种灵活性和自主性。

如果这一轨迹持续——并且这些能力变得快速、可概括和自我改进——我们将见证一个世界模型架构的基础，能够适应任何现实世界的问题。到那时，AGI不再是一个理论目标，而是一个功能现实。

结论

我们正在见证LLM能力的进步：

第1级——从生成文本的模型，

第2级——到遵循指令的模型，

第3级——到能够推理、行动并与工具和系统集成的模型。

第4级——到能够自我改进、适应并演变以提高效率的模型。

随着我们朝着更强大和灵活的AI系统迈进，泛化、可扩展性和标准化将是关键。MCP为实现模型无关、工具驱动的大规模智能提供了一个有前景的前进步骤。

附加阅读：关于世界模型的个人想法，

世界模型：走向自适应、演变的智能

如果模型能够在运行时动态生成工具、构建系统连接器以及获取或合成知识——而不受限于预配置的能力——我们就开始接近许多人所称的世界模型。

世界模型不仅仅是一个具有外部工具的大型语言模型。它是一个可以：

• 理解复杂目标。

• 分析并将任务分解为更小的子任务。

• 按需组装所需的工具、数据访问机制或推理路径。

• 以自适应、自主的方式与外部系统、API甚至其他模型进行交互。

这一愿景使我们远离构建狭窄目的模型或僵化管道的方式。相反，我们设想模型能够：

•通过调用专门的辅助模型或代码生成器生成运行时基础设施。

•构建和维护不断演变的知识库，不断从与世界的互动中学习。

•对推理本身进行推理——决定如何处理问题、何时寻求外部帮助以及何时独立行动。

•与其他智能体协调，形成动态的认知网络，可以跨任务或领域进行协作。

如果这样的系统变得高效、快速且有效——能够实时决策和执行——我们不再仅仅是在与智能工具进行交互。我们正在见证自适应、世界感知智能的出现。

到那时，AGI可能不会以单一的整体模型形式出现，而是作为一组自组织、自扩展的模型生态系统，能够感知、推理、构建和演变。

这是我们正在稳步迈向的未来——而类似MCP的协议、运行时工具生成和智能编排正在为此奠定基础。

深入阅读的资源

1.Anthropic的模型-客户端协议（MCP）官方提案和技术说明https://docs.anthropic.com/mcp

2.苦涩的教训 — Rich Sutton（2019）关于为什么通用性和学习比手动编码系统更重要的基础性文章。http://www.incompleteideas.net/IncIdeas/BitterLesson.html

3.自我指导：使语言模型与自生成指令对齐（2022）引入指令调优——从基础模型到智能模型演变的关键里程碑。https://arxiv.org/abs/2212.10560

4.Toolformer：语言模型可以自我学习使用工具（Meta AI，2023）展示了LLM如何自主学习调用工具——直接与您的AGI愿景对齐。https://arxiv.org/abs/2302.04761

5.ReAct：在语言模型中协同推理和行动（2022）描述了将推理与工具使用相结合的方法——在LangChain和CrewAI中广泛使用。https://arxiv.org/abs/2210.03629

tags: #genai #agi #mcps #world-models #llm

发表于: 2025-04-192025-04-19 10:44:05
原文链接：https://page.om.qq.com/page/OUCSYF81t2Yc4ze1BvzOuutw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

加速 AI 开发：利用 LLMs 和 MCP 实现 2025 年更强的泛化能力

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐