首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

视觉智能体精准控界面:AI看图也能精准操作

每天一个AI知识-0604

视觉智能体精准控界面:AI看图也能精准操作

​​AI点错按钮、看不懂界面?研究者推出全新视觉智能体SpiritSight,专为网页、App和桌面软件设计,能通过截图直接识别操作目标,无需依赖代码或标签。团队构建了超大规模数据集GUI-Lasagne,覆盖图标识别、功能定位和导航任务,并创新性地引入统一块解析方法,解决高分辨率图像中元素定位不准的问题。实测显示,SpiritSight在多个平台表现领先,准确率超过GPT-4等模型,即使面对中文界面也能轻松应对,为AI自主操作软件打开新局面。

资料来源:https://arxiv.org/abs/2503.03196

参考文献:Huang Z, Cheng Z, Pan J, et al. SpiritSight Agent: Advanced GUI Agent with One Look[J]. arXiv preprint arXiv:2503.03196, 2025.

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OjE0TpJY27nZzeqiy7GOekDw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券