概念说明
Mobile Use Agent 打破 AI 仅停留在“对话”的局限,通过“大模型+GUI Agent+云手机 PaaS”的方案,助力 AI 真正从“能说”向“能做”升级:依托自然语言理解与多模态交互能力,可实现云端虚拟手机的自主操作,打造“一言即达”的移动应用自动化服务;且一站式 PaaS 方案无需客户搭建复杂的 ARM 算力集群环境,通过完善的云手机 PaaS 能力即可快速落地,让 AI 从“理解指令”迈向“执行指令”——用户通过文字或语音指令,就能完成 APP 打开、信息搜索、功能调用等各类操作。

前置工作
使用开源 agent 及模型部署
1. 实例环境配置
1.1 安装adbkeyboard
1. 登录腾讯云控制台,进入云手机产品页面,进入 应用管理。
2. 单击创建应用,上传 adbkeyboard.apk 文件。
3. 应用创建成功后,在 实例管理 界面选择目标实例并安装该应用。
1.2 启动 adbkeyboard
1. 在 实例列表 界面,通过 WebShell 登录目标实例。
2. 执行以下命令启用 adbkeyboard 输入法:
ime enable com.android.adbkeyboard/.AdbIME
1.3 环境镜像保存
1. 完成上述配置后,可将当前实例环境打包为自定义镜像。
注意:
打包为自定义镜像会导致实例关机。
2. 后续创建新实例时,可选择该镜像快速部署相同环境。
2. x86服务器配置
云手机实例不开放公网 IP,如需部署内网x86或使用公网 ADB 连接云手机实例可联系商务/架构师,下述以腾讯云提供内网x86为例。
2.1 ADB 环境配置
2.1.1 安装 ADB 工具
1. 从 Android 官方平台下载 ADB 工具包。
2. 解压到自定义目录路径。
2.1.2 配置环境变量
macOS 系统:
export PATH=${PATH}:~/Downloads/platform-tools
说明:
请根据实际解压路径调整命令。
Windows 系统:参考 Windows 平台 ADB 安装指南进行配置。
2.2 Python 环境配置
1. 建议安装 Python 3.10 或更高版本。
2. 确保 pip 包管理工具可用。
2.3 部署 Open-AutoGLM
1. 克隆项目仓库:
git clone git@github.com:zai-org/Open-AutoGLM.git
2. 安装项目依赖:
pip install -r requirements.txtpip install -e .
2.4 连接云手机实例
1. 使用 ADB 连接云手机:
adb connect <实例IP>:<端口>
2. 验证连接状态:
adb devices
2.5 智谱 AI API 配置
1. 访问 智谱AI开放平台 申请 API Key。
2. 妥善保存获得的 API Key。
3. 运行示例程序
3.1 创建测试脚本
1. 在 phone-agent 目录下创建 test.py 文件。
2. 添加以下代码内容:
from phone_agent import PhoneAgentfrom phone_agent.model import ModelConfig# 配置模型参数model_config = ModelConfig(base_url="http://localhost:8000/v1",model_name="autoglm-phone-9b",api_key="<您的API Key>", # 替换为实际申请的Key)# 创建Agent实例agent = PhoneAgent(model_config=model_config)# 执行任务result = agent.run("打开淘宝搜索无线耳机")print(result)
3.2 执行测试程序
1. 通过控制台连接云手机实例,保证串流画面正常。
2. 在命令行执行:
python test.py
3. 观察程序输出和云手机操作响应。
自有 Agent 及模型部署
腾讯云提供一系列平台能力支持自有 Agent 及模型部署,具体可咨询腾讯云商务/架构师。
云手机原生 API 操控
除了使用传统 ADB 工具进行单机调试外,腾讯云手机还提供了一套原生云端 API 与低延迟控制网关来操控云手机的方案。该方案适合大规模云手机集群部署场景,具有以下优势:
极简的网络架构:无需为每台云手机开放公网 ADB 端口或搭建复杂的内网反向代理,规避了大量 ADB 维持长连接的稳定性隐患。
低延迟高并发响应:通过统一的 HTTP 控制接口,实现毫秒级的单机/批量动作响应,为 AI Agent 的高频多模态交互提供高吞吐支撑。
一站式批量控制:内置标准化的分布式任务下发机制,支持单个 API 批量调度数十台实例。
批量指令发起及截图流程

1. 获取实例列表:调用 DescribeAndroidInstances 接口获取目标云手机实例的底层状态。
2. 生成访问令牌:调用 CreateAndroidInstancesAccessToken 接口获取实例的临时操作凭证及操作网关地址。
3. 多模态闭环执行:通过请求网关服务执行以下两大高频接口完成 Agent 的核心循环:
画面截取 (/CAIScreenshot):使用 GET 请求实时拉取自定义画质和长宽的云手机实时画面,作为 Agent 视觉模型的输入。
操作编排 (/CAIInputSchedule):使用 POST 请求向下游网关发送经过 AI 规划的按键(Key)、触摸(Touch)及休眠(Sleep)等原子动作序列。
网关除了截图和操作编排外,网关还支持修改分辨率、修改实例属性、粘贴文本等操作,具体实现方式可咨询腾讯云商务/架构师。