谷歌刚刚发布了一项更新:正式推出Gemini 2.5计算机使用模型(Computer Use model)
这是一款基于Gemini 2.5 Pro视觉理解与推理能力构建的专用模型,旨在赋予AI智能体(agent)与图形用户界面(GUI)直接交互的能力——就像人类一样进行点击、打字和滚动操作
从今天起,Gemini 2.5计算机使用模型已开放公开预览。开发者可以通过Google AI Studio和Vertex AI中的Gemini API进行访问和构建
https://ai.google.dev/gemini-api/docs/computer-use
https://cloud.google.com/vertex-ai/generative-ai/docs/computer-use
谷歌表示,虽然AI模型可以通过结构化的API与软件交互,但许多数字任务仍需要直接操作图形界面,例如填写并提交表单。为了完成这些任务,AI智能体必须能像人一样浏览网页和应用程序
这种原生填充表单、操作下拉菜单和筛选器等交互元素,以及在登录后进行操作的能力,是构建强大通用智能体的关键下一步
如何工作?
该模型的核心能力通过Gemini API中新增的computer_use工具对外开放,并应在循环(loop)中运行
其工作流程如下:
1.输入:工具的输入包括用户请求、当前环境的屏幕截图以及最近的操作历史。输入时还可以指定排除某些UI操作或加入额外的自定义函数
2.分析与响应:模型分析这些输入并生成响应,通常是一个代表UI操作(如点击或输入)的函数调用。对于购买等特定操作,响应中可能还包含一个请求最终用户确认的步骤
3.执行:客户端代码执行接收到的操作指令
4.反馈与循环:操作执行后,新的GUI屏幕截图和当前URL将作为函数响应发送回模型,重新启动循环
这个迭代过程会持续进行,直到任务完成、发生错误,或因安全响应、用户决策而终止交互
谷歌指出,Gemini 2.5计算机使用模型主要针对Web浏览器进行了优化,同时在移动UI控制任务上也显示出巨大潜力,但尚未针对桌面操作系统级别的控制进行优化
性能
根据谷歌公布的信息,Gemini 2.5计算机使用模型在多个Web和移动控制基准测试中表现出色
其性能优于目前市场上的主流替代方案,并在多个基准测试中实现了领先。在针对Online-Mind2Web的Browserbase测试平台上,该模型在浏览器控制方面实现了领先的质量和最低的延迟
安全
谷歌称,在构建之初就将负责任作为首要原则。能够控制计算机的AI智能体带来了独特的风险,包括用户的有意滥用、意外的模型行为以及Web环境中的提示注入和诈骗。
为此,谷歌采取了多项安全措施:
模型内置安全特性:直接在模型训练中加入了安全功能,以应对三大核心风险。
开发者安全控制:
* 逐步安全服务(Per-step safety service):一个模型外的、在推理时运行的安全服务,用于在模型提议的每个动作执行前进行评估。
* 系统指令(System instructions):开发者可以进一步指定,在执行特定类型的高风险操作前,智能体必须拒绝或请求用户确认。
这些控制措施旨在赋能开发者,防止模型自动完成可能损害系统完整性、危及安全、绕过验证码(CAPTCHA)或控制医疗设备等高风险或有害行为