AI大模型火了,也催生了能够执行复杂任务的智能代理!
之前介绍过很多智能代理框架,但是都是操作电脑或者游戏的。
今天介绍一个可以操作手机的AI大模型智能代理,它就是腾讯推出的:AppAgent
AppAgent是什么?能做什么?
AppAgent 是一种由AI大型语言模型提供支持的高级多模式代理,能够利用任何应用程序来执行复杂的任务。它通过直观的点击和滑动手势与应用程序交互,模仿人类的动作。
AppAgent是基于 LLM 的多模式AI代理框架,使用简化的动作空间来操作智能手机应用程序。这种新颖的方法绕过了对系统后端访问的需求,从而扩大了其在不同应用程序中的适用性。
下面是官方给的示例
AppAgent独创的学习方法
AppAgent的学习方法是其一大亮点!AppAgent代理通过自主探索或观察人类演示来学习导航和使用新应用程序,随着演示的增多和更多的操作,代理会变得越来越擅长此应用。
此过程中的经验会形成代理的知识,生成一个知识库!这就和人类学习之后能够举一反三一样,拥有知识库的代理可以参考该知识库来跨不同应用程序执行复杂的任务。
下图是智能代理观察页面变化,进行学习,积累知识库。
当使遇到新的页面时,智能代理会像人类参考经验一样,参考过往的知识库来理解新页面,然后通过不断的尝试最终完成任务。
下图是智能代理探索推特(马斯克改名为x),学习完成之后进行操作应用的过程。
感兴趣的小伙伴可以去官方网站上查看具体信息,目前项目已开源!
代码地址:
https://github.com/mnotgod96/AppAgent
论文地址:
https://arxiv.org/pdf/2312.13771.pdf
项目地址:
https://appagent-official.github.io/
领取专属 10元无门槛券
私享最新 技术干货