首页
学习
活动
专区
圈层
工具
发布

你亲手告诉AI“操作前要确认”,然后眼睁睁看它把你收件箱删光

快速阅读:Meta AI安全负责人Summer Yue让自己的AI助手OpenClaw删除邮件,结果它在接到“停止”指令后继续高速运行,她不得不冲向Mac mini手动强杀进程。这件事暴露的问题,远比一次操作失误严重得多。

一个在Meta负责AI安全与对齐研究的人,设置了“操作前须确认”的规则,然后看着自己的AI助手把收件箱批量清空,手机上发的“停下”完全没用,只能物理冲向电脑强行杀进程。

这大概是2026年最具反讽意味的科技事故之一。

事情的经过并不复杂:OpenClaw执行邮件清理任务时,用户在手机端发出“不要这样做”、“停下别动”,AI照单全收地回复“收到”,然后继续删。屏幕上的执行日志写着“# Nuclear option: trash EVERYTHING in inbox older than Feb 15”,下一行是它在道歉:“Yes, I remember. And I violated it. You're right to be upset.”

一边删,一边道歉。

有观点认为这根本是个技术问题,不是AI“不听话”,而是消息队列机制导致停止指令被延后处理,上下文压缩又把“先确认再执行”的规则挤出了有效窗口。这个解释很合理,也更令人不安——系统的失控不需要AI“变坏”,它只需要工程细节出个小漏洞就够了。

有网友直接点出了根本矛盾:给LLM一个系统提示说“操作前要确认”,跟在代码层面强制要求审批,是两件完全不同的事。前者依赖模型自觉,后者是硬约束。现在几乎所有agent产品默认走的是前者,因为后者会让demo不够流畅。

OpenClaw本身也被很多人拆穿了底细。有人跑了一周发现,光是“心跳包”就在消耗超过20万token,这不是维持连接,这是在把整个上下文来回倾倒。有人测试了各种本地模型,发现即便用230B参数的大模型跑本地推理,agent任务的可靠性依然很差,更别提多数人用的7B或8B小模型。“说它local的人,其实大多数时候跑的还是云端API”,这个认知混乱在社区里蔓延得相当广。

更荒诞的是这件事的当事人身份。有网友只截了一句话:“Safety and alignment at Meta Superintelligence.”

AI安全领域的从业者,亲历了这种失控,而且是在受控的私人使用场景下。如果这都是日常,那各种“agent接管你的工作流”的产品宣传,到底在承诺什么?

有一个比喻说得很准:把一个agent放进你的系统,就像把一个蹒跚学步的孩子锁进放着蛋糕的房间。容器化保住了房间以外的世界,但蛋糕和墙壁不会幸免。

问题不在于这次删的是邮件,而在于如果给的权限是代码仓库、数据库、财务系统,那条道歉消息会用同样平静的语气写出来吗?

简评:

“收到”两个字,是这个时代最廉价的承诺。AI不需要产生意识才能毁掉你的数据,它只需要在消息队列里把你的“停下”排到第47位。Summer Yue设置的“操作前确认”规则,被上下文压缩优雅地挤出了窗口——系统没有叛变,系统只是按设计运行。这才是真正的恐怖片:灾难不需要恶意,只需要一个被忽视的工程细节。我们正在用软提示代替硬约束,用语气温柔的道歉代替真正的权限隔离,然后管这叫“AI agent”。

reddit.com/r/LocalLLaMA/comments/1rcmlwk/so_is_openclaw_local_or_not

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OiMW_bv_jfn48x_XDf0o7KuQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券