首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >炸了!腾讯开源!AppAgent:AI大语言模型实现自主玩手机!

炸了!腾讯开源!AppAgent:AI大语言模型实现自主玩手机!

原创
作者头像
疯狂的KK
发布2024-01-02 10:56:31
发布2024-01-02 10:56:31
5.1K1
举报
文章被收录于专栏:Java项目实战Java项目实战

2024年第一个工作日,带来腾讯开源多模式代理AppAgent,以后APP完全自动化或可实现,结合AI大模型应用,能做的事情更多,完全开放想象

【腾讯云AI绘画】AI绘画专栏之全网第一套系统的AI绘画课 零基础学会AI绘画-腾讯云开发者社区-腾讯云 (tencent.com)

AI工具大合集👇👇

代码语言:actionscript
复制
https://yv4kfv1n3j.feishu.cn/docx/MRyxdaqz8ow5RjxyL1ucrvOYnnH

项目地址:https://appagent-official.github.io/

git地址:mnotgod96/AppAgent: AppAgent: Multimodal Agents as Smartphone Users, an LLM-based multimodal agent framework designed to operate smartphone apps. (github.com)

论文地址:[2312.13771] AppAgent: Multimodal Agents as Smartphone Users (arxiv.org)

AppAgent功能演示。AppAgent 是一种高级多模式代理 由大型语言模型提供支持,能够掌握和利用任何应用程序来 执行复杂的任务。它通过直观的点击和滑动手势与应用程序进行交互, 模仿类似人类的动作。

大型语言模型 (LLM) 的最新进展导致了能够执行复杂任务的智能代理的创建。本文介绍了一种基于LLM的新型多模态代理框架,旨在操作智能手机应用程序。我们的框架使代理能够通过简化的操作空间操作智能手机应用程序,模仿类似人类的交互,例如点击和滑动。这种新颖的方法绕过了对系统后端访问的需求,从而扩大了其在不同应用程序中的适用性。我们代理功能的核心是其创新的学习方法。智能体通过自主探索或观察人类演示来学习导航和使用新应用程序。此过程会生成一个知识库,代理会引用该知识库来跨不同应用程序执行复杂任务。为了证明我们代理的实用性,我们在 10 个不同的应用程序中对 50 多个任务进行了广泛的测试,包括社交媒体、电子邮件、地图、购物和复杂的图像编辑工具。结果证实了我们的代理在处理各种高级任务方面的熟练程度。

2023.12.26:AppAgent 支持 Andriod 模拟器!即使您没有 Android 设备,也可以尝试一下。

2023.12.21:🔥🔥开源 git 仓库,包括实现 AppAgent 的详细配置步骤!

应用代理分两个阶段运行,分别称为探索阶段和部署阶段。在第一个 阶段,App Agent 会观察不同应用用户界面中的交互。用足够的 观察,App Agent 变得熟练使用应用程序。这些知识被精心编译成一个 公文。完成此学习阶段后,代理即可开始操作。在第二阶段,App 代理能够跨任何受支持的应用程序处理高级任务。这种有条不紊的方法 使 App Agent 能够跨不同应用程序高效完成各种复杂任务。

通过观察各种应用程序的图形用户界面的变化,App Agent 了解它们的功能和 操作逻辑。这种对 GUI 元素的深刻理解对于其与 应用程序。

遇到新的用户界面时,App Agent 会参考文档中的知识库来了解 接口的用途和用法。然后,它制定完成给定任务的最佳方式,使 一步一步的正确操作。

AppAgent 需要由多模态模型提供支持,该模型可以接收文本和视觉输入。在我们的实验中 ,我们以模型为模型来决定如何采取行动在智能手机上完成任务。gpt-4-vision-preview

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 【腾讯云AI绘画】AI绘画专栏之全网第一套系统的AI绘画课 零基础学会AI绘画-腾讯云开发者社区-腾讯云 (tencent.com)
  • AI工具大合集👇👇
    • 通过观察各种应用程序的图形用户界面的变化,App Agent 了解它们的功能和 操作逻辑。这种对 GUI 元素的深刻理解对于其与 应用程序。
    • 遇到新的用户界面时,App Agent 会参考文档中的知识库来了解 接口的用途和用法。然后,它制定完成给定任务的最佳方式,使 一步一步的正确操作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档