目标:AI版按键精灵
AI与数字世界交互。允许模型使用人类每天依赖的相同工具,并为广泛的新应用打开大门。
建立一套通用的与电脑交互的人工助手,能全自动完成指定任务。
基于像素的输入,键盘与鼠标的输出。并结合上下文及操作的响应结果。
愿景:与物理世界交互
AI与真实世界交互,带脑子的真机器人真快来了。
实现过程
输入任务
操作:看屏幕,操作鼠标或键盘,就这样循环,直到任务完成。
当前
在 OSWorld 上实现 38.1% 的完全计算机使用任务的成功率,在 WebArena 上实现 58.1% 的成功率,在 WebVoyager 上实现 87% 的基于 Web 的任务的成功率。CUA 仍然需要更多的改进,以缩小与人类在 WebArena 等更复杂的基准测试中的表现差距。
领取专属 10元无门槛券
私享最新 技术干货