文档中心>云手机>实践教程>Mobile Use Agent:构建高效的智能体执行环境

Mobile Use Agent:构建高效的智能体执行环境

最近更新时间:2026-05-14 17:19:11

我的收藏

概念说明

Mobile Use Agent 打破 AI 仅停留在“对话”的局限,通过“大模型+GUI Agent+云手机 PaaS”的方案,助力 AI 真正从“能说”向“能做”升级:依托自然语言理解与多模态交互能力,可实现云端虚拟手机的自主操作,打造“一言即达”的移动应用自动化服务;且一站式 PaaS 方案无需客户搭建复杂的 ARM 算力集群环境,通过完善的云手机 PaaS 能力即可快速落地,让 AI 从“理解指令”迈向“执行指令”——用户通过文字或语音指令,就能完成 APP 打开、信息搜索、功能调用等各类操作。


前置工作

部署前需开通云手机服务并购买资源,详细可参考 快速入门

使用开源 agent 及模型部署

下面以开源模型 Open-AutoGLM 为例,快速部署环境验证。

1. 实例环境配置

1.1 安装adbkeyboard

1. 登录腾讯云控制台,进入云手机产品页面,进入 应用管理
2. 单击创建应用,上传 adbkeyboard.apk 文件。
3. 应用创建成功后,在 实例管理 界面选择目标实例并安装该应用。

1.2 启动 adbkeyboard

1. 实例列表 界面,通过 WebShell 登录目标实例。
2. 执行以下命令启用 adbkeyboard 输入法:
ime enable com.android.adbkeyboard/.AdbIME

1.3 环境镜像保存

1. 完成上述配置后,可将当前实例环境打包为自定义镜像。
注意:
打包为自定义镜像会导致实例关机。
2. 后续创建新实例时,可选择该镜像快速部署相同环境。

2. x86服务器配置

云手机实例不开放公网 IP,如需部署内网x86或使用公网 ADB 连接云手机实例可联系商务/架构师,下述以腾讯云提供内网x86为例。

2.1 ADB 环境配置

2.1.1 安装 ADB 工具
1. 从 Android 官方平台下载 ADB 工具包。
2. 解压到自定义目录路径。
2.1.2 配置环境变量
macOS 系统
export PATH=${PATH}:~/Downloads/platform-tools
说明:
请根据实际解压路径调整命令。
Windows 系统:参考 Windows 平台 ADB 安装指南进行配置。

2.2 Python 环境配置

1. 建议安装 Python 3.10 或更高版本。
2. 确保 pip 包管理工具可用。

2.3 部署 Open-AutoGLM

1. 克隆项目仓库:
git clone git@github.com:zai-org/Open-AutoGLM.git
2. 安装项目依赖:
pip install -r requirements.txt
pip install -e .

2.4 连接云手机实例

1. 使用 ADB 连接云手机:
adb connect <实例IP>:<端口>
2. 验证连接状态:
adb devices

2.5 智谱 AI API 配置

1. 访问 智谱AI开放平台 申请 API Key。
2. 妥善保存获得的 API Key。

3. 运行示例程序

3.1 创建测试脚本

1. 在 phone-agent 目录下创建 test.py 文件。
2. 添加以下代码内容:
from phone_agent import PhoneAgent
from phone_agent.model import ModelConfig

# 配置模型参数
model_config = ModelConfig(
base_url="http://localhost:8000/v1",
model_name="autoglm-phone-9b",
api_key="<您的API Key>", # 替换为实际申请的Key
)

# 创建Agent实例
agent = PhoneAgent(model_config=model_config)

# 执行任务
result = agent.run("打开淘宝搜索无线耳机")
print(result)
3.2 执行测试程序
1. 通过控制台连接云手机实例,保证串流画面正常。
2. 在命令行执行:
python test.py
3. 观察程序输出和云手机操作响应。

自有 Agent 及模型部署

腾讯云提供一系列平台能力支持自有 Agent 及模型部署,具体可咨询腾讯云商务/架构师。

云手机原生 API 操控

除了使用传统 ADB 工具进行单机调试外,腾讯云手机还提供了一套原生云端 API 与低延迟控制网关来操控云手机的方案。该方案适合大规模云手机集群部署场景,具有以下优势:
极简的网络架构:无需为每台云手机开放公网 ADB 端口或搭建复杂的内网反向代理,规避了大量 ADB 维持长连接的稳定性隐患。
低延迟高并发响应:通过统一的 HTTP 控制接口,实现毫秒级的单机/批量动作响应,为 AI Agent 的高频多模态交互提供高吞吐支撑。
一站式批量控制:内置标准化的分布式任务下发机制,支持单个 API 批量调度数十台实例。

批量指令发起及截图流程


1. 获取实例列表:调用 DescribeAndroidInstances 接口获取目标云手机实例的底层状态。
2. 生成访问令牌:调用 CreateAndroidInstancesAccessToken 接口获取实例的临时操作凭证及操作网关地址。
3. 多模态闭环执行:通过请求网关服务执行以下两大高频接口完成 Agent 的核心循环:
画面截取 (/CAIScreenshot):使用 GET 请求实时拉取自定义画质和长宽的云手机实时画面,作为 Agent 视觉模型的输入。
操作编排 (/CAIInputSchedule):使用 POST 请求向下游网关发送经过 AI 规划的按键(Key)、触摸(Touch)及休眠(Sleep)等原子动作序列。
网关除了截图和操作编排外,网关还支持修改分辨率、修改实例属性、粘贴文本等操作,具体实现方式可咨询腾讯云商务/架构师。