Info 当网站开始主动向 Agent 暴露可调用能力时,网页的角色就开始变化了。 它不再只是一个等待人类点击的界面,也开始成为一个可以被理解、被调用、被编排的能力入口。 WebMCP 的意义,不在于它今天已经多成熟, 而在于它让一件事情变得非常具体: Web,正在为 Agent 重写交互接口。
最近 Chrome 发布了 WebMCP 的 early preview。
如果只把它看成一个浏览器新能力,这件事其实没那么重要。
但如果把它放回更大的变化里看,它更像是一个信号: 网站开始不只服务于人,也开始面向 Agent 暴露能力。
Chrome 官方把 WebMCP 分成两类能力: 一类是声明式交互(例如表单这类可以结构化描述的行为), 另一类是命令式交互(用于更复杂、动态的操作)。
它的目标不是替代网页功能, 而是让网站对 Agent 更可理解、可调用。
这件事真正值得关注的地方,不在于 API 细节,而在于它意味着一个非常具体的变化:
过去网页主要是“给人操作的”;现在网页也开始变成“给 Agent 调用的”。

图 1:当执行者不再只有人,GUI 就不再是唯一入口
过去我们很少怀疑一件事: 网页是给人用的。
所有交互,都是围绕“人如何操作系统”来设计的。
也就是说,网页的主入口一直是 GUI。 用户通过界面理解系统,再通过操作触发系统。
但这件事,开始出现变化。
当 Agent 开始进入真实使用场景之后,一个新的问题变得越来越明显: 它并不适合通过 GUI 来理解系统。
它可以“看见”页面, 但并不真正“理解”页面。
它可以点击按钮, 但需要反复猜测每一步操作的含义。
当一个 Agent 想在网页上完成任务时,它并不天然理解“这个按钮为什么在这里”、“这个区域是不是一个结算入口”、“这个弹窗和上一个页面状态有什么关系”。
过去常见的方式,是让 Agent 去看 DOM、模拟点击、读取页面内容,再猜测下一步要怎么走。
这不是不能用。
但它始终是在用界面,反推能力。
而 WebMCP 做的,是把这层猜测往前挪。 它不是让 Agent 更聪明地猜,而是让网站更直接地告诉 Agent:这里有哪些能力、应该怎么触发、哪些交互是标准的、哪些交互需要更复杂的执行逻辑。
这也是 Chrome 官方强调 WebMCP 比 raw DOM actuation 更可靠、更高效的原因。(Chrome for Developers[1])
如果只看表面,WebMCP 很像一个新的开发接口。 但它背后更重要的,是交互边界的移动。
过去我们默认认为,软件的边界大多停留在界面层。 用户看到页面,理解页面,操作页面,页面再把这些操作翻译成系统行为。
但 Agent 并不一定需要通过 GUI 来理解系统。 更准确地说,GUI 并不是最适合 Agent 的表达方式。
对人来说,界面是一种高密度、可感知、可探索的交互形式。 对 Agent 来说,它更适合面对的是:
GUI 的本质是“隐式接口”,Agent Interface 的本质是“显式接口”, 而显式接口,必须具备最小完备结构。

图 2:GUI 用于理解,接口用于执行
这也是 Chrome 官方在 3 月的文章(Chrome for Developers[2])里专门解释的一点:WebMCP 不是 MCP 的替代品,两者解决的问题不同。
MCP 更像是跨平台的工具与数据能力入口;WebMCP 则发生在网站内部,帮助 Agent 更好理解 UI 并与网站交互。
官方给的比喻也很有意思:MCP 像公司的呼叫中心,WebMCP 更像店里的现场专家。
这其实已经说明了一个变化:
网站开始承认,GUI 不是唯一接口。
它仍然是人的主入口,但对 Agent 来说,网站正在补上一层更适合机器理解和调用的交互层。
WebMCP 现在还在 early preview。
Chrome 官方也明确把它放在 Early Preview Program 里,希望开发者参与原型测试和反馈,并说明这也是为后续标准化讨论收集输入。
所以如果今天就把它当成一个已经成熟的通用方案,显然还太早。 但它的重要性,本来也不在“成熟度”上。
它真正重要的地方在于:
它把原来隐含的东西,显性化了。
原来很多人在谈 Agent 与 Web 的关系时,更多还是把它理解成“浏览器自动化增强”、“更聪明的 RPA”、“更自然语言化的操作方式”。
这些理解都没错,但都还停留在:
让 Agent 去适应网页
WebMCP 往前走了一步:
让网页开始适应 Agent
它不是只让 Agent 变强,而是让网站本身开始为 Agent 做准备。
这个差别非常大。
前一种思路里,系统还是原来的系统,只是操作它的人从人变成了 Agent。 后一种思路里,系统开始主动调整自己的接口形态,以适应新的执行者。
这可能才是更值得关注的部分。
如果继续往前看,会发现变化不只是交互方式。
Web 本身的角色,也在变化。
过去,能力被包裹在界面之中; 现在,能力开始从界面中“抽离出来”。
一部分仍然通过 GUI 提供给人, 另一部分,则开始以结构化方式暴露给 Agent。
这意味着:
网页不再只是界面容器,而开始成为能力入口。
这个变化并不意味着 GUI 会消失。 更准确的说法是:
GUI 的中心地位开始被削弱。
它不再是系统与外部交互的唯一主通道。 在 GUI 旁边,正在出现另一种入口:
不是基于点击、拖拽、浏览, 而是基于意图、调用、编排。
从这个角度看,WebMCP 的出现,并不只是给浏览器加了个新玩具。 它更像是在告诉大家: Web 不是只能被“使用”,也可以被“调用”。
一旦这个变化继续发展下去,很多今天还被包装在 GUI 里的系统能力,未来都可能逐渐抽离出来,成为可被 Agent 调用的显式接口。
GUI 不会消失,但它更像会变成一种面向人的界面层;
而系统真正的能力组织,会更多沉到下面,变成可调用、可编排、可组合的能力层。
也就是说,软件会进一步走向“系统”,而不只是“界面产品”。

图 3:软件,正在从“被使用”,走向“被调用”
如果把这件事放回软件演化里看,会更清晰。
软件系统,开始同时面对两类用户:
面对人类用户,软件仍然需要界面、反馈、可理解的交互路径。 面对 Agent,软件开始需要:
这会带来一个很自然的结果:
软件的设计,不再只考虑“人怎么操作”, 还要开始考虑“Agent 怎么执行”。
软件从“被操作”转向“被调用”, 系统开始从“实现细节”,变成“能力中心”。
如果这条路继续往前走,Web 开发里至少有几个问题会变得更重要。
第一,前端不再只是在搭页面。 它也开始参与定义:
哪些能力应该停留在 GUI 哪些能力可以抽象为 Agent 接口
第二,交互设计不再只面向人。 还要开始考虑:
系统如何让 Agent 稳定执行
第三,网站的可用性,会出现新的维度:
对 Agent 是否可理解、可调用、可执行
这不只是工程问题。 它会慢慢变成产品问题、设计问题,甚至系统结构问题。
WebMCP 今天大概率还不成熟。 但它已经足够说明一件事:
软件的交互边界,正在发生改变。
过去,软件是被使用的; 现在,软件也开始被调用。
过去,界面是唯一入口; 现在,界面只是入口之一。
当这种变化继续推进, 软件就不再只是“界面产品”, 而会越来越像一个可以被调度的系统。
WebMCP 未必是最终答案。 但它让这个方向第一次变得清晰:
软件,正在开始为 Agent 提供接口。
[1] Chrome for Developers: https://developer.chrome.com/blog/webmcp-epp
[2] Chrome for Developers: https://developer.chrome.com/blog/webmcp-mcp-usage