
Anthropic 内部有个叫 Claude Mythos Preview 的模型,没进 API、没对外开放,官方理由是"太强不敢发"。这种话通常听起来像营销——因为没法验证。
这周可以验证了。
Mozilla 4 月安全 release 修了 423 个 bug,其中 271 个出自 Mythos Preview 一个模型——这个数字比 Firefox 过去一整年靠 AFL/libFuzzer + Project Zero + bug bounty 找到的总和还多。全部走 Bugzilla 公开流程:bug 编号、文件位置、复现脚本可以逐条点开。
Firefox XSLT 引擎里有个 use-after-free,躺了 20 年——key() 重入触发哈希表释放,调用方还握着裸指针。20 年里跨过了所有代码审计、模糊测试、bug bounty。
同一批里还有:
<legend> 标签的 UAF,藏了 15 年。rowspan=0 bitfield 溢出,fuzzer 多年没撞到。模糊测试为什么撞不到?fuzzer 擅长撒随机输入暴力撞,但碰到"先调 A 再调 B、A 又递归回 A"这种状态机推理基本无解。Mythos 不撒输入——它读控制流,写出能跑的 POC,丢进 ephemeral VM 验证,每个文件一个 agent。

Mozilla 早先用 GPT-4 和 Sonnet 3.5 跑过同一套思路,结果是误报多到没法用。从"没法用"到"Mozilla 把 271 个 bug 直接收进 release",中间隔的就是 Mythos 在控制流推理上拉开的代差。
数据是技术的,但数据背后的事不是技术的。
Mozilla 这件事换一种说法:20 个安全工程师 1 年扫不完的代码,1 个模型 1 个月扫完了。
把这个比例放到任何业务场景里:
公司之间的差距以前用钱、人头数、上市年限算。现在新维度浮出来:有没有拿到代差级模型 + 工程团队会不会架 agent harness 把它兜起来。
这个差距不是线性放大。Mozilla 这数据是人力天花板被一次性抬高 20 倍——一家公司 20 个工程师能干的活,另一家公司 1 个 agent 一个月干完。两家公司站在同一个市场上,结果不是输赢,是降维。
以前估项目用人月——"3 个工程师 6 个月"。在 Mozilla 这种数据面前,人月这个单位本身在崩塌。
新计量更像:"手上能调多少代差级模型 token、并行架几条 agent 流水线"。
谁先重写自己的生产函数,谁就在两年后的市场上看着别人还在按月排期。Anthropic 把 Mythos 锁起来不是"先公开后关闭"——它从来没公开过。给少数合作方意味着定向赋能:被选中的公司开始用全新计量单位运转,没被选中的还在按人月推进。
Mozilla 的 271 是第一个公开样本。Chrome、Linux 内核、Apple WebKit、各家银行核心系统、各种 20 年没人审过的 C++ 代码库——每交出来一份,都是同一种降维证据。
跑了 20 年没事的代码不再等于它没问题。同一句话的反面:还在用人头数估生产力的公司,也不再等于它真的有生产力。