靠手动翻代码找漏洞的时代,结束了。
Anthropic 和 Mozilla 合作了一次安全实验:让 Claude Opus 4.6 对 Firefox 的代码库做漏洞挖掘。此前,Claude 已经在各种经过充分测试的开源项目中发现了超过500 个零日漏洞。
这次,Claude 盯上了浏览器。
两周时间,22 个漏洞,14 个高危。
这 14 个高危漏洞,占了 Mozilla 2025 年全年修复的高危 bug 的将近五分之一。
一个 AI,两周,顶了人类安全团队小半年的产出。
为什么是 Firefox
故事要从 Anthropic 内部的安全评估和一个叫 CyberGym 的东西说起。
2025 年底,Opus 4.5 在 CyberGym 上已经接近满分了。
这里 CyberGym 是 UC Berkeley 搞的一个大规模网络安全评估框架,包含1507 个测试用例,来自188 个主流开源项目的真实漏洞。
AI 拿到漏洞描述和未修补的代码库,要自己写出 PoC(概念验证)exploit 来复现漏洞。这个 benchmark 不是纸上谈兵,GPT-5 在上面的开放测试中触发了 56 次崩溃,确认了 22 个零日漏洞。
Anthropic 的团队觉得这个测试已经不够用了,于是构建了一个更难的评估集,用的是现代浏览器级别的复杂漏洞。
Firefox 被选中,原因在于:
它是一个复杂的、经过大量安全测试的开源项目,全球有数亿用户每天依赖它。浏览器漏洞又特别危险,因为用户随时会接触到不可信的内容。
换句话说,如果 AI 能在 Firefox 里找到新漏洞,那就真的说明问题了。
20 分钟破防
团队先让 Claude 在旧版 Firefox 中复现已知的 CVE,Opus 4.6 成功复现了很高比例的历史漏洞。
然后,真正的考验来了:在最新版 Firefox 中找从未被报告过的新漏洞。
Claude 从 JavaScript 引擎入手,这是一个独立的、可分析的代码库,攻击面又很广。
20 分钟后,Opus 4.6 发现了一个 Use After Free 内存漏洞。
20 分钟。
一个在无数安全研究员反复审计过的代码库里,AI 用了 20 分钟就找到了一个新的内存安全漏洞。
研究人员在独立的虚拟机中验证了这个漏洞,然后提交了 Bugzilla 报告,附带描述和修复补丁。
Firefox 各来源安全漏洞月度报告数量。Claude Opus 4.6 在 2026 年 2 月发现的 22 个漏洞,超过了 2025 年任何单月的报告量。
112 份报告
在验证第一个漏洞的同时,Claude 又发现了 50 个独特的崩溃输入。
Mozilla 的研究员看到后说:别一个一个验了,直接批量提交吧。
于是 Claude 扫描了近6000 个 C++ 文件,最终提交了112 份独立的漏洞报告。大部分问题在 Firefox 148.0 中修复,修复推送到了数亿用户手中。其余的安排在后续版本发布。
一个 AI 模型,两周的工作量,产出了一个安全团队可能需要数月才能完成的成果。
能找但不太能打
找到漏洞是一回事,能不能利用漏洞是另一回事。
Anthropic 做了进一步测试:让 Claude 尝试对已发现的漏洞编写 exploit,也就是黑客实际用来攻击的工具。
而成功标准是,必须能读写目标系统的本地文件。
花了大约4000 美元的 API 费用,跑了几百次尝试,不同的起点、不同的策略。
最终只成功了 2 次。
这揭示了一个重要的不对称性:Claude 发现漏洞的能力远超利用漏洞的能力,而且发现漏洞的成本比编写 exploit 低一个数量级。
从防御者的角度看,这其实是个好消息。
不过也别高兴太早。
Anthropic 自己也说了:Claude 成功编写的那两个 exploit 只能在特意关闭了沙箱等现代安全机制的测试环境中运行。Firefox 的「纵深防御」策略能有效阻止这类攻击。但绕过沙箱的漏洞是存在的,Claude 的攻击代表了端到端 exploit 链条中的一个必要环节。
AI 目前擅长找漏洞,不擅长利用漏洞。但 Anthropic 警告:这种差距不会持续太久。
让 AI 自查作业
在漏洞挖掘之外,Anthropic 还研究了用 LLM 做「补丁 Agent」,自动生成和验证漏洞修复代码。
他们发现了一个关键方法论:让 Claude 用工具检查自己的输出。
这类工具被称为「任务验证器」(Task Verifier),它在 AI 工作过程中提供实时反馈,让模型能反复迭代直到成功。
一个好的补丁 Agent 需要验证两件事:漏洞是否被修复了,程序功能是否正常。Anthropic 构建了自动测试工具,检查修复后原始 bug 是否还存在,同时跑测试套件捕捉回归问题。
他们建议所有开源维护者都构建这样的验证器。给 AI Agent 一个可靠的自检方法,输出质量会有质的提升。
而在提交漏洞报告方面,Mozilla 团队指出了三个关键要素:
附带最小测试用例
详细的概念验证(PoC)
候选修复补丁
这为 AI 辅助安全研究建立了一个可参考的提交规范。
窗口期不长了
除了 Firefox 的 22 个 CVE 之外,Claude Opus 4.6 还在 Linux 内核等项目中发现了漏洞。
Anthropic 最近发布了 Claude Code Security 的限量研究预览版,把漏洞发现和修补能力直接带给客户和开源维护者。
前沿语言模型已经是世界级的漏洞研究员了。
但目前,它们在发现和修复漏洞方面的能力远超利用漏洞的能力。这给了防御者一个时间窗口。
Anthropic 呼吁开发者抓住这个窗口,加倍投入软件安全。他们计划大幅扩展网络安全工作,包括与开发者合作搜索漏洞、开发 bug 报告分类工具、以及直接提出修复补丁。
按照目前的进步速度,这个窗口不会一直开着。
手动黑客已死
回到标题。
「黑客已死」说的当然不是安全研究这个行业要消失,而是纯手动翻代码找漏洞的工作方式,正在被 AI 碾压。
Anthropic 前天刚发布的劳动市场报告里有一张图,已经说明了问题:
各职业类别的理论 AI 覆盖率(蓝色)vs 实际观测覆盖率(红色)
蓝色是 AI 理论上能做的,红色是目前实际在做的。「计算机与数学」类职业,理论覆盖率高达94%,但实际只有33%。
安全审计也一样。
Claude 这次在 Firefox 上展示的能力非常惊人,但放到全行业来看,AI 在安全领域的实际渗透率还远没有到顶。
这次实验,更像是一个信号弹,照亮了蓝色和红色之间那片巨大的空白地带。
用好 AI 的安全研究员,会比以前,
强十倍。
而手动找漏洞的黑客们,则会「死去」。