前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >鹅厂新智能体亮相!操纵手机水平媲美真人,GitHub一周获1.5K星

鹅厂新智能体亮相!操纵手机水平媲美真人,GitHub一周获1.5K星

作者头像
量子位
发布2023-12-28 16:15:34
1530
发布2023-12-28 16:15:34
举报
文章被收录于专栏:量子位量子位
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI

一不留神,大模型已经学会了操纵手机?

最近,腾讯最新多模态智能体框架AppAgent曝光,可以像人类一样操作各种应用。

比如在地图软件中输入目标地址,然后唤起导航。

或者想要发一封邮件,AppAgent也能轻松编写,然后直接在客户端中发送。

就算是“反人类”的验证码,也丝毫难不住AppAgent。

甚至是用Lightroom这样人类都不一定会的专业软件P图,也能三下五除二地完成。

而且它还可以观察人类操作,甚至是自主探索,不用教就能学会新的APP。

目前,该项目在GitHub上已经取得了1.5k星标。

操纵水平超越GPT4

为了更具体地评估AppAgent的表现,研究团队一共在10个不同的应用程序上测试了50个任务,其中还包括没有学习过的新APP或操作,结果它都能出色完成。

除了P图的效果由人工评判,AppAgent在其它九个APP上的表现,分别用成功率(SR)、奖励分数和平均步数来衡量。

在自动探索模式下时,AppAgent完成这些任务的成功率达到了73.3%,学习过DEMO之后可以提升到84.4%。

虽然离人类手工指导的95.6%还存在差距,但这样的表现已经远远超过了GPT-4。

而在使用Lightroom进行P图操作时,真人会对“参赛选手”的表现进行评价,评价的方式是对它们的作品效果进行排名而不是打分。

结果AppAgent自行学习DEMO后,表现的平均排名为1.95/3,略低于手工指导的1.75,但比GPT4的2.3还是高出不少。

那么,AppAgent优异表现的背后,采用了什么样的方法呢?

通过界面变化学习操作

研究人员给AppAgent设定了点击、长按、滑动、输入、返回和退出这六种预置操作。

后续的学习过程和操作方案,都是由这六种操作按一定顺序排列组合而成的。

模型方面,AppAgent的基础模型是多模态版的GPT4;工作流程则分为了探索操作两个阶段。

探索阶段中,研究人员会把应用说明和标有界面中元素位置的XML文件,连同界面截图一起输入给模型。

然后模型通过分析不同截图之间的界面变化,学习APP的功能和操作逻辑。

以发送邮件为例,人类的操作过程被转换成六种预置操作的组合,然后被AppAgent学习。

到了操作阶段,AppAgent会调用学习后的知识库,对应用界面进行分析,了解界面中的功能并根据任务需要设计操作策略。

目前,AppAgent已有DEMO可供体验,暂只支持安卓手机,具体详情和使用方法可以到项目页中查看。

论文地址: https://www.arxiv.org/abs/2312.13771

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-12-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 操纵水平超越GPT4
  • 通过界面变化学习操作
相关产品与服务
验证码
腾讯云新一代行为验证码(Captcha),基于十道安全栅栏, 为网页、App、小程序开发者打造立体、全面的人机验证。最大程度保护注册登录、活动秒杀、点赞发帖、数据保护等各大场景下业务安全的同时,提供更精细化的用户体验。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档