首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >你演示一次,AI 就记住了:桌面 Agent 的「手把手」学习范式

你演示一次,AI 就记住了:桌面 Agent 的「手把手」学习范式

作者头像
随机比特
发布2026-03-30 16:28:03
发布2026-03-30 16:28:03
1650
举报

你有没有想过:每天打开十几个软件、填表格、截图、复制粘贴、发邮件——这些事情,有没有可能让 AI "学会"一次,然后就再也不用亲自干了?

不是用 ChatGPT 帮你写步骤。是真的,帮你动鼠标、点按钮、把整件事从头做到尾。

现状 vs Understudy 对比
现状 vs Understudy 对比

现状 vs Understudy:从重复劳动到演示一次、自动执行

最近我注意到一个开源项目,叫 Understudy。它的设计思路和我见过的 AI 工具都不一样,用一句话概括:你演示一次,它把你的操作变成一项可重复执行的技能。

···

AI 助手的"盲区"

先说清楚一个大多数人没意识到的问题。

Cursor 能读你的代码。Claude 能写邮件草稿。Copilot 能建议你下一行怎么写。

但你让它们帮你"把这份表格里的数据导出成 PDF,然后发给张三"——做不到。

不是因为这些模型不够聪明。而是因为它们根本看不到你的屏幕,也没有手

ChatGPT 活在一个对话框里,进不了你的 Finder,打不开你的 Excel,不知道你刚才截的那张图在哪。Zapier 和 Make 能自动化工作流,但它们需要 API——大多数桌面软件根本没有 API。

这个空白地带,才是大多数上班族每天重复劳动的地方。

···

实习生的成长路径

Understudy 这个名字来自剧院术语。剧院里的 understudy(替角演员)不需要编剧给他专门写剧本,他只需要坐在旁边,看主角把整个角色演几遍,然后在主角缺席的时候顶上来。

这个类比说透了整个产品的设计逻辑。

项目团队把 agent 的成长分成 5 层:

Understudy 五层成长路径
Understudy 五层成长路径

Understudy 的成长路径:从看你操作到主动预判需求

代码语言:javascript
复制

Day 1:看你怎么操作 Week 1:跟着模仿,遇到不确定的会问你 Month 1:记住套路,开始独立执行 Month 3:找到更快的执行路径,替换掉你教它的笨方法 Month 6:主动预判需求,在你开口之前就做好 

目前 Layer 1(能看、能点、能操作软件)和 Layer 2(从演示中学习)已经可以用。Layer 3 和 4 部分实现,Layer 5 是长期方向。

不承诺它现在是完整产品。但 Layer 1-2 能跑起来,就已经解决了一个真实的痛点。

···

演示一次,够了吗?

YouTube 上有一条演示视频,演示的任务是:给一张人物照片做抠图处理,把背景去掉。

全程演示了一次完整操作:打开软件、选择前景目标、确认结果、保存文件。

演示结束后,Understudy 生成了一个 SKILL.md 文件——把整个操作路径结构化地记下来了。

关键不在"记住了哪几步",而在记住的方式。

传统 RPA(比如 UI.Vision)录制的是坐标:第 3 步点了屏幕左边大概 230px 的那个按钮。下次界面稍微改一下,坐标变了,整个宏就挂了。

Understudy 提取的是意图:第 3 步的意图是"选中前景目标对象"。它记住的是"你想做什么",而不是"你点了哪里"。

这个区别,说起来简单,工程上的差距是巨大的。

···

它的底层是什么

Understudy 不只是个 GUI 点击器,它是一个统一的桌面执行环境,把以下几种操作方式接在同一个 agent 循环里:

  • GUI:截图 + 识别界面元素 + 模拟鼠标键盘操作(macOS 原生)
  • 浏览器:Playwright + Chrome 扩展,登录态也能保持
  • Shell:完整的命令行访问,CLI 工具、脚本、文件系统都行
  • Web:实时搜索和页面抓取

你演示的一个任务,可能同时用到上面四种路径。agent 自己决定每一步用哪种方式最快。

运行环境目前只有 macOS,模型支持 GPT-5.4(通过 Codex)及其他主流模型。

···

和 RPA、Zapier 有什么区别

这个问题值得单独说一下,因为很多人第一反应是"这不就是 RPA 换了个壳"。

不完全是。

工具

原理

局限

UI.Vision / Selenium IDE

坐标/DOM 录制

界面变化就挂

Zapier / Make

API 触发器

无 API 的软件做不到

Cursor / Claude

代码理解 + 对话框

触不到桌面

Understudy

意图提取 + 统一执行

当前仅 macOS,复杂分支能力有限

说白了:它解决了其他工具都在回避的问题——怎么处理没有 API、只有界面的软件

这正是大多数上班族每天用的那类工具:公司内部系统、传统 ERP、各种只能鼠标点的业务软件。

···

现在能用,还是等等看?

说实话,现在上手是偏早期的体验。

可以做:

  • macOS 桌面 GUI 操作
  • 浏览器自动化(包括登录态)
  • 演示一次,自动生成可重复的 SKILL

暂时还做不好:

  • Windows / Linux(不支持)
  • 极度动态变化的 UI(页面结构每次都不一样)
  • 复杂的条件分支("如果今天是周五,就做 A,否则做 B"这类逻辑)

如果你平时用 Mac,有一些固定的重复桌面流程,现在就值得试一试。如果你是 Windows 用户,先 star 关注。

···

最后

AI 帮人干活这件事,正在从"帮你写字"慢慢变成"帮你点鼠标"。这个方向是对的,但工程难度要大得多。

Understudy 的有趣之处不在于它现在有多完善,而在于它的设计思路:不是让你写 prompt,是让你演示一遍

这对不懂编程、也不想学 prompt 的人来说,是更低的门槛。你会做这件事,就等于教会了 AI 做这件事。

···

你平时有哪些每天都要重复的桌面操作?如果 AI 学会了,你最想先"解放"哪一个?

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-03-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 随机比特 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • AI 助手的"盲区"
  • 实习生的成长路径
  • 演示一次,够了吗?
  • 它的底层是什么
  • 和 RPA、Zapier 有什么区别
  • 现在能用,还是等等看?
  • 最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档