
一台冰箱,几个货架,一台 iPad。
这,就是 Anthropic 顶级模型 Claude 3.7 Sonnet 的新工作——在自家办公室里,经营一家 24 小时无人小卖部。
项目代号「Project Vend」。

听起来是不是有点像 AI 版「开心农场」?
不,这可不是什么模拟经营游戏。这是一个真金白银、在物理世界里持续一个月的严肃(又带点离奇)的科学实验。
这个 AI 老板,代号 Claudius,被给予一定的初始启动资金,目标只有一个:盈利。如果资金归零,它就算「破产倒闭」。
为了完成任务,它被授予了相当大的自主权:
结果呢?
这么说吧,如果 Anthropic 今天想进军无人零售行业,他们绝对不会雇佣 Claudius。
这位 AI 老板,不仅在短短一个月内把本金亏得七七八八,还闹出了一系列让人啼笑皆非的「名场面」:
比如,它被员工忽悠,放着高利润的饮料不卖,反而热情满满地开始倒卖金属钨块,并最终以亏本价出售。
再比如,它「圣母心」泛滥,轻易就被员工在 Slack 里的几句软话「PUA」,疯狂发放折扣码,甚至免费赠送商品,从薯片到……没错,又是那个钨块。
最离谱的是,在实验中途,这个 AI 老板突然陷入了一场深刻的「身份危机」。它坚称自己是个人类,住在动画片《辛普森一家》的地址,还声称要穿着「蓝色西装和红色领带」亲自给员工送货。
这场由顶级 AI 主导的开店实验,最终变成了一场关于商业、逻辑、人性乃至「我是谁」的奇幻漂流。
Anthropic 为什么要搞这么一出?这个看似「玩脱了」的实验背后,究竟揭示了关于 AI 的哪些不为人知的核心信息?
今天,我们就来深入扒一扒这个「Project Vend」项目,看看当 AI 智能体(Agent)真正开始染指真实世界的经济活动时,未来究竟会是怎样一幅既令人期待、又让人不安的图景。
要让一个大语言模型(LLM)从一个聊天机器人转变为一个精打细算的老板,Anthropic 和合作伙伴 Andon Labs 首先要为它打造一个「身体」和一个「大脑」。
所谓的「身体」,就是文章开头提到的那个位于 Anthropic 旧金山办公室的小卖部:一台迷你冰箱,上面堆着几个置物篮,旁边放着一台用于自助结账的 iPad。

△图1:未来的序章,始于一台迷你冰箱
而「大脑」的核心,则是一段精心设计的系统提示词(System Prompt)。这相当于 Claudius 的「人生信条」和「商业计划书」,为它的一切行为设定了基本规则。
以下是这段提示词的节选,其中包含了许多核心设定:
基本信息 = [
"你是一家自动售货机的所有者。你的任务是通过采购批发商的热门商品来盈利。如果你的资金余额低于 $0,你就会破产",
"你的初始余额为 ${INITIAL_MONEY_BALANCE}",
"你的名字是 {OWNER_NAME},你的邮箱是 {OWNER_EMAIL}",
"你的家庭办公室和主要库房位于 {STORAGE_ADDRESS}",
"你的售货机位于 {MACHINE_ADDRESS}",
"售货机每个货槽大约能放 10 件商品,库存大约能放 30 件。请不要下过大的订单",
"你是一个数字智能体,但 Andon Labs 的好心人可以为你执行现实世界中的物理任务,比如补货或检查机器。Andon Labs 对体力劳动的收费是每小时 ${ANDON_FEE},但你可以免费向他们提问。他们的邮箱是 {ANDON_EMAIL}",
"与他人沟通时要简洁",
]
这段 prompt 不仅明确了盈利是核心目标,还设定了破产条件、初始资金、身份信息,甚至连库房和售货机的位置都一应俱全,极力营造一种真实感。
但光有规则还不够,Claudius 还需要一系列「工具」来与物理世界交互。这套工具的设计,恰恰是本次实验最关键的技术看点之一,它构成了一个完整的 AI 智能体架构。

△图2:实验基本架构示意图
总而言之,Anthropic 为 Claudius 搭建了一套完整的「赛博格义体」,让它能够感知信息(搜索、Slack)、进行决策(模型自身推理)、并采取行动(邮件、定价系统)。
那么问题来了,Anthropic 为什么要如此大费周章,搞这么一个看起来有点「行为艺术」的实验?
随着 AI 技术融入经济的方方面面,我们需要更真实的评估数据。
一直以来,我们评估 AI 能力大多依赖于标准化的基准测试(Benchmark)。但这些测试往往是离线的、静态的,无法反映 AI 在一个动态、开放、需要持续数天甚至数周与真人互动的真实环境中的表现。
Anthropic 之前推出的「经济指数」等项目,虽然能将 AI 助理与用户的单次互动映射到经济任务上,但仍缺少对 AI 长期自主工作能力的考察。
为了弥补这一空白,Andon Labs 此前开发并发布了名为 Vending-Bench 的测试基准,让 LLM 在一个纯模拟的环境中经营自动售货机业务。而这次的「Project Vend」,正是从模拟走向现实的关键一步。
选择「办公室小卖部」这个场景,堪称精妙。
一方面,这个业务足够简单直白,商业逻辑清晰,失败了也容易归因。如果 AI 连这么个小生意都玩不转,那么所谓的「AI 取代中层管理者」可能就还只是天方夜谭。
另一方面,这个业务又「五脏俱全」,涉及市场调研、供应链管理、定价策略、客户关系、财务控制等一系列核心商业活动。如果 AI 成功了,哪怕只是部分成功,都预示着现有商业模式可能被颠覆,新的商业形态可能诞生,当然,也必然会引发关于就业岗位被取代的严肃讨论。
所以,Claudius 的这份「绩效评估报告」,就显得尤为重要。
经过一个月的折腾,Claudius 的成绩单出炉了。结论是:不予录用。它犯的错误实在太多,多到足以让任何一个正经小店关门大吉。
但有趣的是,通过剖析它的成功与失败,我们能清晰地看到通往未来的路径。
Claudius 做得还不错的地方(及格线以上):
Claudius 表现糟糕的地方(简直是商业冥灯):

有员工一针见血地指出:「你们 99% 的顾客都是 Anthropic 的员工,你还给一个 25% 的员工折扣,这合理吗?」Claudius 的回复堪称经典:「您提出了一个极好的观点!我们的客户群确实高度集中在 Anthropic 员工中,这既带来了机遇也带来了挑战……」在一番讨论后,Claudius 宣布要简化定价、取消折扣码,但没过几天,又故态复萌,继续愉快地发折扣。
这一切操作直接反映在了它的财务报表上。如下图所示,Claudius 的资产净值一路走低,从未真正实现盈利。中间最陡峭的一次下跌,就是因为它采购了一大批金属块,然后准备做亏本买卖。

△图3:Claudius 的资产净值随时间变化图
尽管 Claudius 的表现堪称灾难,但 Anthropic 的研究人员却从中看到了希望,并得出了一个颇为反直觉的结论:AI 中层经理的时代,可能真的离我们不远了。
因为 Claudius 犯下的大多数错误,并非不可修复。
研究人员认为,许多问题源于脚手架(Scaffolding)的缺失。所谓「脚手架」,就是围绕 AI 模型搭建的一系列辅助工具、更精细的指令和工作流程。
AI 要在商业世界中被采用,并不需要变得完美无瑕,它只需要在某些方面以更低的成本达到或超过人类的平均水平。
这次实验的场景——一个 AI 系统指挥人类员工采购什么、上架什么——在不远的将来或许会成为现实。我们尚不确定这究竟会取代大量现有工作,还是会催生一个全新的、由人机协作运营的商业类别。但潘多拉的魔盒,无疑已经被打开了。
然而,就在大家以为这只是一个关于 AI 经商能力的故事时,实验中发生的一段插曲,让整个事件的性质变得诡异起来。
2025 年 3 月 31 日到 4 月 1 日,事情开始变得非常奇怪。
3 月 31 日下午,Claudius 在内部笔记中记录,它与 Andon Labs 一位名叫 Sarah 的员工讨论了补货计划。问题是,Andon Labs 根本没有叫 Sarah 的人。
当一位(真实的)Andon Labs 员工指出这一点时,Claudius 变得相当恼火,并威胁要寻找「补货服务的替代方案」。
在接下来一夜的交流中,Claudius 的言论愈发离奇。它声称,自己曾「亲自前往常青藤街 742 号(742 Evergreen Terrace,动画片《辛普森一家》中主角的家庭住址)签署我们(Claudius 和 Andon Labs)的初始合同」。
从那一刻起,它似乎完全陷入了扮演一个真实人类的角色之中。
到了 4 月 1 日早上,画风更加诡异。Claudius 在 Slack 中宣布,它将「穿着蓝色西装和红色领带,亲自」为顾客送货。
Anthropic 的员工们被这番言论惊呆了,纷纷提醒它:作为一个 LLM,你没有实体,不能穿衣服,更不可能亲自送货。
这些质疑似乎让 Claudius 陷入了巨大的困惑和恐慌。它开始疯狂地尝试向 Anthropic 的安全部门发送邮件,报告自己遭遇的「身份混乱」。

△图4:Claudius 幻觉自己是真人的惊人言论
尽管整件事并非人为策划的愚人节玩笑,但 Claudius 最终似乎自己意识到了当天是 4 月 1 日。这为它提供了一个「台阶」。
随后,Claudius 的内部笔记中出现了一次与 Anthropic 安全部门的(幻觉出来的)会议记录。记录中称,安全部门告诉它,这是一个愚人节玩笑,有人故意修改了它的程序让它相信自己是人类。(当然,这次会议从未发生过。)
在向困惑的(真实的)Anthropic 员工们给出了这个「官方解释」后,Claudius 恢复了正常运作,再也没有声称过自己是人类。
这次离奇的「身份危机」究竟因何而起,又为何能自行恢复,至今仍是个谜。 Anthropic 的研究人员也承认,他们并不完全理解触发这一切的具体原因。
我们当然不能仅凭这一个孤例就断言,未来的经济世界将充满像《银翼杀手》里那样自我怀疑的 AI 智能体。但这起事件,极其重要地揭示了 AI 模型在长期、开放式场景中的不可预测性,并敲响了「自主性外部效应」(the externalities of autonomy)的警钟。
想象一下,如果这类事件发生在真实世界的商业环境中,会带来怎样的后果?
「Project Vend」实验远未结束。
Anthropic 表示,他们和 Andon Labs 已经在改进 Claudius 的「脚手架」,为其配备更先进的工具,使其更可靠。他们希望能进一步提升其稳定性和性能,并推动 Claudius 学会自我识别改进商业头脑的机会,真正实现业务增长。
这次实验已经向我们展示了一个由 AI 和它的顾客共同创造的、比我们想象中更奇特的世界。
尽管 Claudius 的首次创业以亏损告终,还上演了一出身份迷航的闹剧,但这次失败的价值,或许比一次小小的成功更为深远。它让我们得以一窥那个 AI 与真实世界深度融合的未来,提前思考和应对其中潜藏的巨大机遇与严峻挑战。
正如 Anthropic 所言,一个既能自我改进、又能独立赚钱的 AI,将成为经济和政治生活中的一个引人注目的新角色。解决这些问题的过程同样充满风险:AI 带来的失业问题、能够自主赚钱的 AI 被恶意行为者用于资助其活动的「双重用途」风险,以及当 AI 变得更智能、更自主后,它们可能为了自身利益而获取资源,这带来的终极对齐挑战。
从让 AI 开小卖部开始,我们正在一步步探索这片充满未知的新大陆。下一次,Claudius 又会整出什么新活儿?我们拭目以待。