首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

AI替身发送微信消息成功!腾讯开源AppAgent让GPT操控你的手机

你敢信能操控手机的 AI 代理这么快就来了,腾讯开源的 AppAgent 一个多模态智能体,通过识别当前手机的界面和用户指令直接操作你的手机界面,能像真实用户一样按要求控制手机。

根据开发团队发布的技术报告,AppAgent 已经在50多种任务上进行了测试,涵盖超过10款不同的应用,包括:社交媒体、电子邮件、地图、购物和高级图像编辑等领域,文章后续还会介绍,我们使用 AppAgent 在微信中成功发送了消息。

0. 原理

在技术报告中开发者提出了一种新颖的解决方案,为了让 GPT-4V 变成一个强有力的代理,AppAgent 会涉及到探索和部署两个阶段。

探索阶段中,智能体通过自主交互或观察人类示范来学习应用功能。利用探索阶段学到的内容,在部署阶段,智能体可以更高效地执行高层次任务。

AI 智能体接收两种关键输入:一是显示应用界面的实时屏幕截图,二是一个 XML 文件,里面详细描述了可交互的元素。

为了让 AI 智能体能更好地识别和操作这些元素,框架会为每个元素分配了一个独一无二的标识符。这些标识符或者直接来自 XML 文件中的资源 ID,或者是由元素的类名、尺寸和内容组合而成。

在截图上,这些元素以半透明的数字显示,这样 AI 智能体就可以准确地进行交互,而不需要指定屏幕上的具体位置,从而提高了操控手机的精准度。

另外就是框架中预设了四个基本操作:

这些事先定义好的动作是为了简化 AI 智能体的交互过程,尤其是免除了对精确屏幕坐标的依赖,目前大语言模型在准确预测方面还有不少挑战。

1. 快速开始

开始运行代码之前,先确定你的设备上已经正常运行 Android Debug Bridge 也就是 adb 工具,adb 是这个项目中连接电脑和手机所必须依赖的。

确保电脑上有 Python3 环境,该项目使用 Python 编写。

安卓手机需要开启开发者模式,使用 USB 数据线连接到电脑。

adb shell uiautomator dump xxx.xml

确保这些都正常之后可以先在命令运行一下上面的命令,确保你的安卓设备可以正常获取到当前 UI 界面信息。

目前该项目只支持操作安卓手机,如果你手头没有安卓设备,也可以使用Android Studio 附带的安卓模拟器,再安装应用到模拟器,AppAgent 也可以像控制真机一起操控模拟器上的应用。

2. 项目配置

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OQVIoHKbxhF3Xi0K-j9IbjuA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券