首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AG-UI:解决 AI Agent 的"最后一公里"

AG-UI:解决 AI Agent 的"最后一公里"

作者头像
windealli
发布2026-06-24 20:12:59
发布2026-06-24 20:12:59
160
举报
文章被收录于专栏:windealliwindealli

❝你大概率已经用过 ChatGPT、Cursor、各种 AI 助手了。有没有注意过一个细节:当 AI 在帮你查资料、调工具、写代码时,界面上会「实时」蹦出"正在搜索…""正在调用工具…",文字是一个字一个字往外冒的,甚至能直接给你画出一张可点击的卡片或表单。 这种"AI 在后台一边干活、前端一边实时呈现"的体验,背后其实有一个常被忽略的工程问题:「Agent 和用户界面之间,到底该用什么协议通信?」 2025 年起,一个叫 AG-UI 的协议成了这个问题的热门答案。这篇文章就用大白话讲清楚三件事:AG-UI 是什么、它解决了什么痛点、以及它到底算不算"业界标准"了。❞

先说痛点:Agent 的"最后一公里"

过去两年,AI Agent 圈子里诞生了一堆协议,但它们大多在解决"后端"的问题:

  • 「Agent 怎么用工具、读数据?」 → 有 MCP 协议管这事。
  • 「多个 Agent 之间怎么协作对话?」 → 有 A2A 协议管这事。

但有一个环节长期没人统一管:「Agent 算完了、查完了,怎么把这个过程"实时、流畅地"送到用户眼前?」

听起来这不就是"返回个结果"吗?没那么简单。现代 Agent 的体验要求很高:

  • 它不能算完几十秒后甩给你一坨结果,得「像打字一样流式」地往外冒字;
  • 它调工具时,你得「看见它在调哪个工具、进度到哪了」,而不是盯着一个转圈圈;
  • 它中途可能要「反问你一句」("你是要订经济舱还是商务舱?"),需要把控制权交回给你;
  • 它甚至想直接给你「画个界面」——一张航班卡片、一个确认按钮——让你点一下就继续。

每家公司各写各的前后端对接方式,等于每接一个新 Agent 框架就要重写一遍前端通信逻辑。「这"最后一公里"的重复造轮子,正是 AG-UI 想终结的。」

AG-UI 是什么:一句话定义

「AG-UI(Agent-User Interaction Protocol)是一个开源的、事件驱动的协议,专门规定"Agent 后端如何把执行过程实时地流式传给前端界面"。」

它由 CopilotKit 团队在 2025 年开源(MIT 许可),最初源自他们和 LangGraph、CrewAI 等框架的对接实践。

要理解它,关键是抓住一个定位词:「它是"传输层"协议,只管"怎么送",不管"长什么样"。」

打个比方:AG-UI 像一套「物流系统」。Agent 后端在仓库里打包(生成文本、调工具、更新状态),AG-UI 负责把这些包裹一件件、按顺序、实时地运到用户家门口。至于包裹里装的家具长什么样、怎么摆——那不是物流管的事。

这个"只管运、不管样式"的克制定位,是 AG-UI 能被广泛接入的关键:它不绑定任何前端框架,也不强迫你用某种 UI 风格。

核心机制:一切都是"带类型的事件流"

AG-UI 的工作方式可以用一句话概括:

❝Agent 后端在执行时,持续往外发「一连串带类型的 JSON 事件」;前端订阅这条事件流,来一条处理一条。 ❞

它定义了十多种事件类型,但「我们不必逐个去抠每种事件的字段细节」(那是写代码时查文档的事)。从"理解它在干嘛"的角度,把这些事件归成四大类就够了:

  • 「生命周期类」:标记"这一轮开始了 / 结束了"。前端靠它知道何时该显示加载、何时该收尾。
  • 「文本类」:把模型生成的回答「一小段一小段」地推过来——这就是你看到的"打字机效果"的来源。
  • 「工具类」:告诉前端"我开始调某个工具了""参数是这些""调完了"——于是界面能实时显示"正在搜索航班…"。
  • 「状态类」:同步后端的数据状态。可以一次性发"全量快照",也可以只发"增量改动",让前端和后端的状态保持一致。

这四类是主干,「抓住它们你就懂了 AG-UI 八成的精髓」:它把一次 Agent 执行,拆成了一串"前端能听懂、能逐条响应"的实时信号。除主干外还有"活动""推理"等几类,下一节给一份完整清单备查。

还有一个友好的设计:「AG-UI 与具体的传输通道无关」。默认走 SSE(服务器推送),但你也可以用 WebSocket、Webhook 甚至二进制通道——它内部用一层中间件做适配。这让它能塞进各种已有的技术栈里。

附:完整事件清单(备查,不必硬背)

前面四大类是为了"看懂它在干嘛"。如果你要动手开发,下面是 AG-UI 截至目前定义的「全部事件类型」——按官方 SDK 的 EventType 分成 7 类,约 28 种(含几个"便捷合并版")。每种只用一句话点明用途,「字段细节看官方文档即可,这里不展开」

❝所有事件都共享两个基础字段:type(类型)和 timestamp(时间戳),另有可选的 rawEvent 用于调试。 ❞

「① 生命周期(Lifecycle,5 个)」——标记一轮执行的起止与分步:

代码语言:javascript
复制
一轮 Agent 执行开始(带 runId / threadId)

「② 文本消息(Text Message,4 个)」——"打字机效果"的来源:

代码语言:javascript
复制
一条文本消息开始

「③ 工具调用(Tool Call,5 个)」——让前端"看见"Agent 在调工具、可做人工审批:

代码语言:javascript
复制
开始调某工具(含工具名)

「④ 状态管理(State,3 个)」——前后端数据同步:

代码语言:javascript
复制
全量状态快照

「⑤ 活动(Activity,2 个)」——同步 Agent 的活动/进度日志:

代码语言:javascript
复制
全量活动日志

「⑥ 推理(Reasoning,7 个)」——把模型"思考过程"单独流出来(取代旧的 THINKING_*):

代码语言:javascript
复制
推理段落起止

「⑦ 特殊 / 扩展(Special,2 个)」——这正是"支持自定义"的关键所在:

代码语言:javascript
复制
「应用自定义事件」——不改协议、不动 SDK,就能塞进你自己的领域事件(如"订单状态变更""画布更新"),是 AG-UI 的官方扩展口

❝另外还有两类不必现在关心:「已废弃」THINKING_*(统一改用 REASONING_*),以及「草案中」的 Meta 事件、扩展版 RunStarted/RunFinished——它们尚未稳定,生产里先别依赖。 ❞

一句话收尾这节:「主干记四类、扩展靠 CUSTOM。其余的等真用到了再翻文档,不必硬背。

放进协议栈看:它和 MCP、A2A 是什么关系?

很多人会被这些协议字母汤绕晕。其实它们「各管一层、不打架」

这一层管什么

代表协议

一句话

工具 / 数据

「MCP」(Anthropic)

Agent 怎么用工具、取数据

Agent 协作

「A2A」(Google)

多个 Agent 之间怎么对话

「人机交互」

「AG-UI」(CopilotKit)

Agent 怎么把过程实时流给用户

可以这么记:MCP 让 Agent "长出手脚"去干活,A2A 让多个 Agent "组队",而 「AG-UI 让 Agent 学会"当着用户的面把活干给他看"」。三者拼起来,才是一套完整的 Agent 技术栈。

重头戏:AG-UI 是"业界标准"了吗?

这是本文的核心问题。直接给结论:

「AG-UI 是当下交互层的"事实标准"(de facto),但还不是"法定标准"(de jure)。」

这两个词的区别值得掰开说,因为它精准地概括了 AG-UI 目前的处境。

「说它是"事实标准",证据很硬:」

  • 「用量」:每月约 300 万次下载,GitHub star 从 2026 年初的 9k+ 一路涨过 13k。
  • 「大厂背书」「AWS」 的 Bedrock AgentCore 在 2026 年 3 月原生支持;「微软」 的 Agent Framework 1.0 做了集成;「Google」 的 ADK 也在 2026 年初接入。三大云厂商同时下场,这在新协议里很罕见。
  • 「框架生态」:LangGraph、CrewAI、AG2 等主流 Agent 框架原生支持;连 Oracle 的 Agent Spec 也把它列为支持项。

换句话说,「如果你今天要给 Agent 做一个实时前端,AG-UI 几乎是绕不开、也最省事的选择」——这就是"事实标准"的含义:没人强制,但大家都在用。

「但说它还不是"法定标准",短板也很明确:」

❝它「还没有捐给中立的标准组织」,治理上仍由 CopilotKit 这一家主导。 ❞

对比一下就清楚了:2026 年,Linux 基金会成立了 「Agentic AI Foundation(AAIF)」,把 MCP、AGENTS.md 等收为创始项目,Google 的 A2A 也已经捐了进去——这些协议都完成了"去单一厂商化",治理中立。而 AG-UI 目前仍是一个「单厂商主导的独立开源项目」

这意味着什么?短期内不影响你用,但从"能不能成为像 HTTP、像 MCP 那样人人放心采纳的长期基础设施"来看,「治理中立性是 AG-UI 补齐的最后一块拼图」。它会不会、何时进入 AAIF,目前没有公开时间表——这是观察它能否从"事实标准"升级为"法定标准"的关键信号。

它的局限,和"邻居们"

客观看,AG-UI 也不是没有短板:

  • 「缺开发期强类型校验」:它为了广泛兼容,事件采用"松散匹配",代价是很多错误要到运行时才暴露。
  • 「事件分类是"一家之见"」:遇到复杂的多模态流、多 Agent 协同编辑等场景,可能需要自定义事件,反而带来碎片化。
  • 「文档比较分散」:散落在官网、各框架的集成指南、社区示例之间。

另外,常有人把 AG-UI 和两个名字相近的东西搞混,这里一句话厘清:

  • A2UI(Google 发起):它管的是"「界面长什么样」"——用一份声明式 JSON 描述 UI 组件。它和 AG-UI 「不是竞争关系,而是互补」:A2UI 是"包裹里的家具",AG-UI 是"运家具的物流",A2UI 的 UI 描述完全可以塞进 AG-UI 的事件里运过去。
  • 「Vercel AI SDK」:这才是 AG-UI 真正的「同层竞品」。它也做前端流式交互,但深度绑定 React/Next.js 生态;AG-UI 则刻意保持框架无关。要不要选它,主要看你是不是铁了心吃定 React 这一套。

结语:一个"看不见但离不开"的协议

回头看,AG-UI 解决的是一个「用户永远不会直接感知、但缺了就处处别扭」的问题——Agent 与人之间那条实时、流畅、双向的通信管道。

它今天的位置,可以用一句话收尾:

「生态上,它已经是事实标准——你要做 Agent 前端,大概率会用到它;治理上,它还差临门一脚——尚未交给中立基金会托管。」

所以下次你再看到 AI 助手一个字一个字往外冒答案、实时显示"正在调用工具"、甚至直接给你画出一张可点的卡片时,不妨想到:这背后很可能就是 AG-UI 这套"事件流"在默默搬运。「它做得越好,你越感觉不到它的存在——这恰恰是一个优秀基础设施协议的最高评价。」


延伸阅读

  • AG-UI 官方仓库:https://github.com/ag-ui-protocol/ag-ui
  • AG-UI 官网(CopilotKit):https://www.copilotkit.ai/ag-ui
  • AG-UI 事件类型官方清单(SDK EventType):https://docs.ag-ui.com/sdk/js/core/events
  • Google:AI Agent 协议开发者指南(MCP / A2A / AG-UI 全景):https://developers.googleblog.com/developers-guide-to-ai-agent-protocols/
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-06-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 海天二路搬砖工 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 先说痛点:Agent 的"最后一公里"
  • AG-UI 是什么:一句话定义
  • 核心机制:一切都是"带类型的事件流"
  • 附:完整事件清单(备查,不必硬背)
  • 放进协议栈看:它和 MCP、A2A 是什么关系?
  • 重头戏:AG-UI 是"业界标准"了吗?
  • 它的局限,和"邻居们"
  • 结语:一个"看不见但离不开"的协议
  • 延伸阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档