首页
学习
活动
专区
圈层
工具
发布

谷歌发布Gemini 2.5计算机使用模型 可直接操作用户界面

10月8日凌晨,谷歌发布了Gemini 2.5计算机使用模型的预览版。该模型基于Gemini 2.5 Pro构建,是一款专门为实现AI智能体与用户界面(UI)交互而设计的专业模型。

目前,开发者已可通过Google AI Studio和Vertex AI平台上的Gemini API调用其功能。

谷歌表示,Gemini 2.5计算机使用模型在网页与移动端控制任务的多项权威基准测试中均取得了领先成绩,并且响应延迟更低。

工作流程:迭代式“计算机使用循环”

Gemini 2.5计算机使用模型的核心功能通过Gemini API中新增的“计算机使用”工具提供,其运作遵循一个迭代式循环流程。

流程开始时,开发者向模型提供用户请求、当前屏幕截图及近期操作历史。模型分析这些输入后,会生成响应,通常表现为一个界面操作函数调用,例如点击或输入。部分操作(例如付款或购买)被视为高风险行为,模型会自动请求用户确认。

客户端代码将执行接收到的操作,随后系统会将新的图形界面截图及当前URL作为函数响应传回计算机使用模型,从而开启新一轮循环。该迭代过程将持续进行,直至任务完成、出现错误,或因安全机制抑或是用户干预而终止。

Gemini 2.5计算机使用模型支持的界面操作包括页面导航、网页搜索、光标悬停、键盘快捷键及拖放等多种类型。

性能表现:低延迟与高准确度兼备

Gemini 2.5 计算机使用模型在多项网页与移动端控制基准测试中表现卓越。在Online-Mind2Web、WebVoyager和AndroidWorld等权威测试中,其性能均优于当前主流替代方案。

测试数据表明,该模型在保持最低延迟的同时,提供了领先的浏览器控制质量。

例如在Browserbase的Online-Mind2Web测试中,模型准确率超过70%,而完成任务的延迟仅约 225 毫秒,在性能上超越了包括OpenAI和Anthropic在内的主要竞争对手。

目前,Gemini 2.5计算机使用模型主要针对网页浏览器场景进行了优化。尽管尚未支持桌面操作系统层级的控制,但它在AndroidWorld等移动端界面控制测试中已展现出显著潜力。

早期应用:内部外部反馈积极

谷歌已将Gemini 2.5计算机使用模型部署至多个内部团队的生产环境中,用于用户界面测试等场景,显著提升了软件开发效率。

以谷歌支付平台团队为例,他们利用该模型自动识别并修复测试脚本中的故障,成功恢复了超过60%的执行失败案例。这些故障此前曾导致整体测试失败率高达25%,且往往需要数天时间才能人工修复。

Firebase团队也在Project Mariner与AI Mode项目中引入该模型,以支持更灵活的智能体功能。

来自早期访问计划的外部测试者也给予了积极评价。

AI助手服务Poke.com反馈称:“我们多数工作流程都需在以人为本的界面中进行交互,此时响应速度至关重要。Gemini 2.5计算机使用模型显著领先于同类方案,处理速度普遍比次优选项快50%以上,整体表现也更加出色。”

即插即用型全自动AI智能体公司Autotab表示:“我们的智能体完全自主运行,在执行数据采集与解析任务时不容有失。Gemini 2.5计算机使用模型在复杂场景中展现出卓越的上下文解析可靠性,使我们在最严苛评估场景下的整体性能提升了18%。”(文/腾讯科技特约编译金鹿,编辑/郝博阳

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O_jlg4nc6zXPSqUVF2jVn3IQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券