
2024年第一个工作日,带来腾讯开源多模式代理AppAgent,以后APP完全自动化或可实现,结合AI大模型应用,能做的事情更多,完全开放想象
https://yv4kfv1n3j.feishu.cn/docx/MRyxdaqz8ow5RjxyL1ucrvOYnnH

项目地址:https://appagent-official.github.io/
论文地址:[2312.13771] AppAgent: Multimodal Agents as Smartphone Users (arxiv.org)
AppAgent功能演示。AppAgent 是一种高级多模式代理 由大型语言模型提供支持,能够掌握和利用任何应用程序来 执行复杂的任务。它通过直观的点击和滑动手势与应用程序进行交互, 模仿类似人类的动作。

大型语言模型 (LLM) 的最新进展导致了能够执行复杂任务的智能代理的创建。本文介绍了一种基于LLM的新型多模态代理框架,旨在操作智能手机应用程序。我们的框架使代理能够通过简化的操作空间操作智能手机应用程序,模仿类似人类的交互,例如点击和滑动。这种新颖的方法绕过了对系统后端访问的需求,从而扩大了其在不同应用程序中的适用性。我们代理功能的核心是其创新的学习方法。智能体通过自主探索或观察人类演示来学习导航和使用新应用程序。此过程会生成一个知识库,代理会引用该知识库来跨不同应用程序执行复杂任务。为了证明我们代理的实用性,我们在 10 个不同的应用程序中对 50 多个任务进行了广泛的测试,包括社交媒体、电子邮件、地图、购物和复杂的图像编辑工具。结果证实了我们的代理在处理各种高级任务方面的熟练程度。
2023.12.26:AppAgent 支持 Andriod 模拟器!即使您没有 Android 设备,也可以尝试一下。
2023.12.21:🔥🔥开源 git 仓库,包括实现 AppAgent 的详细配置步骤!

应用代理分两个阶段运行,分别称为探索阶段和部署阶段。在第一个 阶段,App Agent 会观察不同应用用户界面中的交互。用足够的 观察,App Agent 变得熟练使用应用程序。这些知识被精心编译成一个 公文。完成此学习阶段后,代理即可开始操作。在第二阶段,App 代理能够跨任何受支持的应用程序处理高级任务。这种有条不紊的方法 使 App Agent 能够跨不同应用程序高效完成各种复杂任务。







AppAgent 需要由多模态模型提供支持,该模型可以接收文本和视觉输入。在我们的实验中 ,我们以模型为模型来决定如何采取行动在智能手机上完成任务。gpt-4-vision-preview

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。