开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >那个 Claude 不敢发的模型，正在重写公司之间的代差

那个 Claude 不敢发的模型，正在重写公司之间的代差

作者头像

随机比特

发布于 2026-05-14 17:57:00

发布于 2026-05-14 17:57:00

70

举报

Anthropic 内部有个叫 Claude Mythos Preview 的模型，没进 API、没对外开放，官方理由是"太强不敢发"。这种话通常听起来像营销——因为没法验证。

这周可以验证了。

Mozilla 4 月安全 release 修了 423 个 bug，其中 271 个出自 Mythos Preview 一个模型——这个数字比 Firefox 过去一整年靠 AFL/libFuzzer + Project Zero + bug bounty 找到的总和还多。全部走 Bugzilla 公开流程：bug 编号、文件位置、复现脚本可以逐条点开。

Firefox XSLT 引擎里有个 use-after-free，躺了 20 年——key() 重入触发哈希表释放，调用方还握着裸指针。20 年里跨过了所有代码审计、模糊测试、bug bounty。

同一批里还有：

<legend> 标签的 UAF，藏了 15 年。
HTML 表格 rowspan=0 bitfield 溢出，fuzzer 多年没撞到。
IPC 反序列化把 NaN 当指针用——沙箱逃逸原语。

模糊测试为什么撞不到？fuzzer 擅长撒随机输入暴力撞，但碰到"先调 A 再调 B、A 又递归回 A"这种状态机推理基本无解。Mythos 不撒输入——它读控制流，写出能跑的 POC，丢进 ephemeral VM 验证，每个文件一个 agent。

01-fuzzer-vs-agent

Mozilla 早先用 GPT-4 和 Sonnet 3.5 跑过同一套思路，结果是误报多到没法用。从"没法用"到"Mozilla 把 271 个 bug 直接收进 release"，中间隔的就是 Mythos 在控制流推理上拉开的代差。

数据是技术的，但数据背后的事不是技术的。

拿到这个模型的公司，是什么样的存在

Mozilla 这件事换一种说法：20 个安全工程师 1 年扫不完的代码，1 个模型 1 个月扫完了。

把这个比例放到任何业务场景里：

30 人研发团队年均 100 个迭代——拿到代差级模型的公司，可能 1 个人 1 周做完
200 人客服中心年处理 100 万 ticket——这种公司可能 5 个人配模型，吞吐相同，精准度高 10 倍
百人级合规团队——可能不需要合规团队，模型自己读所有合同 + 代码 + 流程

公司之间的差距以前用钱、人头数、上市年限算。现在新维度浮出来：有没有拿到代差级模型 + 工程团队会不会架 agent harness 把它兜起来。

这个差距不是线性放大。Mozilla 这数据是人力天花板被一次性抬高 20 倍——一家公司 20 个工程师能干的活，另一家公司 1 个 agent 一个月干完。两家公司站在同一个市场上，结果不是输赢，是降维。

生产力的计量单位变了

以前估项目用人月——"3 个工程师 6 个月"。在 Mozilla 这种数据面前，人月这个单位本身在崩塌。

新计量更像："手上能调多少代差级模型 token、并行架几条 agent 流水线"。

谁先重写自己的生产函数，谁就在两年后的市场上看着别人还在按月排期。Anthropic 把 Mythos 锁起来不是"先公开后关闭"——它从来没公开过。给少数合作方意味着定向赋能：被选中的公司开始用全新计量单位运转，没被选中的还在按人月推进。

Mozilla 的 271 是第一个公开样本。Chrome、Linux 内核、Apple WebKit、各家银行核心系统、各种 20 年没人审过的 C++ 代码库——每交出来一份，都是同一种降维证据。

跑了 20 年没事的代码不再等于它没问题。同一句话的反面：还在用人头数估生产力的公司，也不再等于它真的有生产力。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-05-09，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自随机比特微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

目录

拿到这个模型的公司，是什么样的存在

生产力的计量单位变了