每天一个AI知识-0604
视觉智能体精准控界面:AI看图也能精准操作
AI点错按钮、看不懂界面?研究者推出全新视觉智能体SpiritSight,专为网页、App和桌面软件设计,能通过截图直接识别操作目标,无需依赖代码或标签。团队构建了超大规模数据集GUI-Lasagne,覆盖图标识别、功能定位和导航任务,并创新性地引入统一块解析方法,解决高分辨率图像中元素定位不准的问题。实测显示,SpiritSight在多个平台表现领先,准确率超过GPT-4等模型,即使面对中文界面也能轻松应对,为AI自主操作软件打开新局面。
资料来源:https://arxiv.org/abs/2503.03196
参考文献:Huang Z, Cheng Z, Pan J, et al. SpiritSight Agent: Advanced GUI Agent with One Look[J]. arXiv preprint arXiv:2503.03196, 2025.
领取专属 10元无门槛券
私享最新 技术干货