
你有没有想过:每天打开十几个软件、填表格、截图、复制粘贴、发邮件——这些事情,有没有可能让 AI "学会"一次,然后就再也不用亲自干了?
不是用 ChatGPT 帮你写步骤。是真的,帮你动鼠标、点按钮、把整件事从头做到尾。

现状 vs Understudy:从重复劳动到演示一次、自动执行
最近我注意到一个开源项目,叫 Understudy。它的设计思路和我见过的 AI 工具都不一样,用一句话概括:你演示一次,它把你的操作变成一项可重复执行的技能。
···
先说清楚一个大多数人没意识到的问题。
Cursor 能读你的代码。Claude 能写邮件草稿。Copilot 能建议你下一行怎么写。
但你让它们帮你"把这份表格里的数据导出成 PDF,然后发给张三"——做不到。
不是因为这些模型不够聪明。而是因为它们根本看不到你的屏幕,也没有手。
ChatGPT 活在一个对话框里,进不了你的 Finder,打不开你的 Excel,不知道你刚才截的那张图在哪。Zapier 和 Make 能自动化工作流,但它们需要 API——大多数桌面软件根本没有 API。
这个空白地带,才是大多数上班族每天重复劳动的地方。
···
Understudy 这个名字来自剧院术语。剧院里的 understudy(替角演员)不需要编剧给他专门写剧本,他只需要坐在旁边,看主角把整个角色演几遍,然后在主角缺席的时候顶上来。
这个类比说透了整个产品的设计逻辑。
项目团队把 agent 的成长分成 5 层:

Understudy 的成长路径:从看你操作到主动预判需求
Day 1:看你怎么操作 Week 1:跟着模仿,遇到不确定的会问你 Month 1:记住套路,开始独立执行 Month 3:找到更快的执行路径,替换掉你教它的笨方法 Month 6:主动预判需求,在你开口之前就做好 目前 Layer 1(能看、能点、能操作软件)和 Layer 2(从演示中学习)已经可以用。Layer 3 和 4 部分实现,Layer 5 是长期方向。
不承诺它现在是完整产品。但 Layer 1-2 能跑起来,就已经解决了一个真实的痛点。
···
YouTube 上有一条演示视频,演示的任务是:给一张人物照片做抠图处理,把背景去掉。
全程演示了一次完整操作:打开软件、选择前景目标、确认结果、保存文件。
演示结束后,Understudy 生成了一个 SKILL.md 文件——把整个操作路径结构化地记下来了。
关键不在"记住了哪几步",而在记住的方式。
传统 RPA(比如 UI.Vision)录制的是坐标:第 3 步点了屏幕左边大概 230px 的那个按钮。下次界面稍微改一下,坐标变了,整个宏就挂了。
Understudy 提取的是意图:第 3 步的意图是"选中前景目标对象"。它记住的是"你想做什么",而不是"你点了哪里"。
这个区别,说起来简单,工程上的差距是巨大的。
···
Understudy 不只是个 GUI 点击器,它是一个统一的桌面执行环境,把以下几种操作方式接在同一个 agent 循环里:
你演示的一个任务,可能同时用到上面四种路径。agent 自己决定每一步用哪种方式最快。
运行环境目前只有 macOS,模型支持 GPT-5.4(通过 Codex)及其他主流模型。
···
这个问题值得单独说一下,因为很多人第一反应是"这不就是 RPA 换了个壳"。
不完全是。
工具 | 原理 | 局限 |
|---|---|---|
UI.Vision / Selenium IDE | 坐标/DOM 录制 | 界面变化就挂 |
Zapier / Make | API 触发器 | 无 API 的软件做不到 |
Cursor / Claude | 代码理解 + 对话框 | 触不到桌面 |
Understudy | 意图提取 + 统一执行 | 当前仅 macOS,复杂分支能力有限 |
说白了:它解决了其他工具都在回避的问题——怎么处理没有 API、只有界面的软件。
这正是大多数上班族每天用的那类工具:公司内部系统、传统 ERP、各种只能鼠标点的业务软件。
···
说实话,现在上手是偏早期的体验。
可以做:
暂时还做不好:
如果你平时用 Mac,有一些固定的重复桌面流程,现在就值得试一试。如果你是 Windows 用户,先 star 关注。
···
AI 帮人干活这件事,正在从"帮你写字"慢慢变成"帮你点鼠标"。这个方向是对的,但工程难度要大得多。
Understudy 的有趣之处不在于它现在有多完善,而在于它的设计思路:不是让你写 prompt,是让你演示一遍。
这对不懂编程、也不想学 prompt 的人来说,是更低的门槛。你会做这件事,就等于教会了 AI 做这件事。
···
你平时有哪些每天都要重复的桌面操作?如果 AI 学会了,你最想先"解放"哪一个?