Gemini 2.5 Pro能力再进化：谷歌推出专用计算机操作模型，让AI智能体丝滑接管UI交互

文章来源：企鹅号 - AI寒武纪

谷歌刚刚发布了一项更新：正式推出Gemini 2.5计算机使用模型（Computer Use model）

这是一款基于Gemini 2.5 Pro视觉理解与推理能力构建的专用模型，旨在赋予AI智能体（agent）与图形用户界面（GUI）直接交互的能力——就像人类一样进行点击、打字和滚动操作

从今天起，Gemini 2.5计算机使用模型已开放公开预览。开发者可以通过Google AI Studio和Vertex AI中的Gemini API进行访问和构建

https://ai.google.dev/gemini-api/docs/computer-use

https://cloud.google.com/vertex-ai/generative-ai/docs/computer-use

谷歌表示，虽然AI模型可以通过结构化的API与软件交互，但许多数字任务仍需要直接操作图形界面，例如填写并提交表单。为了完成这些任务，AI智能体必须能像人一样浏览网页和应用程序

这种原生填充表单、操作下拉菜单和筛选器等交互元素，以及在登录后进行操作的能力，是构建强大通用智能体的关键下一步

如何工作？

该模型的核心能力通过Gemini API中新增的computer_use工具对外开放，并应在循环（loop）中运行

其工作流程如下：

1.输入：工具的输入包括用户请求、当前环境的屏幕截图以及最近的操作历史。输入时还可以指定排除某些UI操作或加入额外的自定义函数

2.分析与响应：模型分析这些输入并生成响应，通常是一个代表UI操作（如点击或输入）的函数调用。对于购买等特定操作，响应中可能还包含一个请求最终用户确认的步骤

3.执行：客户端代码执行接收到的操作指令

4.反馈与循环：操作执行后，新的GUI屏幕截图和当前URL将作为函数响应发送回模型，重新启动循环

这个迭代过程会持续进行，直到任务完成、发生错误，或因安全响应、用户决策而终止交互

谷歌指出，Gemini 2.5计算机使用模型主要针对Web浏览器进行了优化，同时在移动UI控制任务上也显示出巨大潜力，但尚未针对桌面操作系统级别的控制进行优化

性能

根据谷歌公布的信息，Gemini 2.5计算机使用模型在多个Web和移动控制基准测试中表现出色

其性能优于目前市场上的主流替代方案，并在多个基准测试中实现了领先。在针对Online-Mind2Web的Browserbase测试平台上，该模型在浏览器控制方面实现了领先的质量和最低的延迟

安全

谷歌称，在构建之初就将负责任作为首要原则。能够控制计算机的AI智能体带来了独特的风险，包括用户的有意滥用、意外的模型行为以及Web环境中的提示注入和诈骗。

为此，谷歌采取了多项安全措施：

模型内置安全特性：直接在模型训练中加入了安全功能，以应对三大核心风险。

开发者安全控制：

* 逐步安全服务（Per-step safety service）：一个模型外的、在推理时运行的安全服务，用于在模型提议的每个动作执行前进行评估。

* 系统指令（System instructions）：开发者可以进一步指定，在执行特定类型的高风险操作前，智能体必须拒绝或请求用户确认。

这些控制措施旨在赋能开发者，防止模型自动完成可能损害系统完整性、危及安全、绕过验证码（CAPTCHA）或控制医疗设备等高风险或有害行为

相关快讯