
6 月 9 日,Anthropic 正式发布 Claude Fable 5 和 Claude Mythos 5。Fable 5 是首个面向公众开放的 Mythos 级模型,在几乎所有 AI 能力基准测试中拿到 SOTA;Mythos 5 面向受信任的网络安全和生物研究用户,提供不带安全限制的完整能力。

一句话概括:Fable 5 的能力超越了 Anthropic 此前发布的所有通用模型。软件工程、知识工作、视觉理解、科学研究,全面领先。任务越复杂、持续时间越长,领先幅度越大。
但强能力伴随高风险。Fable 5 在网络安全等领域的能力一旦被滥用,可能造成严重损害。所以 Anthropic 给它配了新的安全机制:部分敏感话题的请求会自动回退到 Claude Opus 4.8 响应。平均下来,只有不到 5% 的会话会触发回退。
Mythos 5 和 Fable 5 是同一个模型,区别在于移除了网络安全方面的限制。它目前通过 Project Glasswing 项目部署,和美国政府合作,只开放给网络安全防御者和关键基础设施提供商。后续会通过受信任访问计划逐步扩大范围。
两款模型统一定价:
• 输入:$10 / 百万 token
• 输出:$50 / 百万 token
此前 Claude Mythos Preview 的价格远高于此。Anthropic 明确表示,预计 Fable 5 需求远超供应,低价既是竞争策略,也是在引导使用方式。
Stripe 的早期测试中,Fable 5 在一个 5000 万行 Ruby 代码库里完成了一次全代码库迁移。人工做这件事需要整个团队两个多月,Fable 5 用了一天。
在 Cognition 的 FrontierCode 评测(考察模型在满足生产级代码标准的同时能否通过高难度编码任务)上,Fable 5 即使在中等 effort 设置下也排在前沿模型第一位。
金融 AI 平台 Hebbia 的金融基准测试面向高级金融推理,Fable 5 拿到了所有模型的最高分,文档推理、图表解读、问题解决全面提升。
量化交易公司 IMC 的评估也显示,Fable 5 在交易分析上几乎全面领先,覆盖事实查询、概念推理、根因分析和期望值分析。
Fable 5 是目前视觉任务的 SOTA。从科学图表中提取精确数值,仅凭截图重建 Web 应用源代码,都能做。
一个直观的例子:之前的 Claude 模型即使配上辅助工具也打不过 Pokémon FireRed,Fable 5 只靠原始游戏截图就通了关,不需要地图、导航或任何额外状态信息。
Fable 5 在超长任务中能维持数百万 token 的注意力,还能利用自己的笔记改进输出。Slay the Spire 卡牌游戏测试里,给模型配上持久化文件记忆后,Fable 5 的性能提升幅度是 Opus 4.8 的三倍,进最终关卡的概率也是三倍。
Anthropic 在发布文章中展示了几个 Fable 5 的自主作品:
• 太阳系模拟:从物理第一性原理推导行星轨道运动,预测日食
• Factorio 自动化工厂:自主规划和建造工厂
• 3D CAD 建模:在浏览器里设计可 3D 打印的模型,连编辑器和内置 AI 副驾驶都是 Fable 5 自己写的
• 流体模拟:编码实现与古典音乐 EDM 混音节拍同步的流体动画,而模型从未"听过"音乐
Mythos 5 在药物设计上展现了突破性能力。Anthropic 内部蛋白质设计专家用 Mythos 5 把药物设计流程的部分环节加速了约 10 倍。测试中,Mythos 5 配备蛋白质设计和生物信息学工具、无人工辅助的情况下,匹配甚至超越了熟练的人类操作员,独立完成了从选择结合位点、运行设计工具到失败恢复的全流程。
14 个蛋白质靶点中有 9 个产出了有力的药物设计候选方案,目前还在进一步研究。
Mythos 5 是 Anthropic 第一个能持续产出新颖且有说服力的科学假说的模型。盲测对比中,科学家们约 80% 的时间更偏好 Mythos 的分子生物学假说。一个更有说服力的信号:Mythos 提出的一个大肠杆菌蛋白新机制假说,被另一个独立实验室的研究证实了。
Mythos 5 用了超过一周的自主工作完成了原创基因组学研究:为 138 个动物物种的数百万细胞组装单细胞数据,设计并训练了一个自定义机器学习模型,用来识别远缘生物中执行相同功能的细胞。仅靠高层人类指导,这个模型就超越了《Science》近期发表的一个模型,体积只有后者的百分之一。
这次发布最值得细看的是安全机制。Anthropic 给 Fable 5 配了一套新的分类器系统,覆盖三个领域:
Mythos 级模型在发现和利用软件漏洞方面表现极强,还能执行完整攻击链(侦察、发现、横向移动等)。Fable 5 的网络安全分类器覆盖了漏洞利用和更广泛的攻击性网络任务。
关键数据:
• 外部红队测试 1000+ 小时,未发现通用越狱
• 外部合作伙伴测试中,Fable 5 对有害网络查询零合规,所有测试模型中防护最强
• 30 种公开越狱技术,Fable 5 同样零合规
• UK AISI 在初步测试中取得了一定进展,但未发现完整越狱
Fable 5 目前在大多数生物学和化学相关请求上回退到 Opus 4.8。策略偏保守,但 Anthropic 计划尽快收窄限制。
一个值得注意的测试结果:在腺相关病毒(AAV)外壳组装预测任务中,Mythos 级模型仅凭生物推理能力,就在 Dyno Therapeutics 开发的治疗相关候选序列上超越了专门的蛋白质语言模型,尽管并未针对该任务做过专门训练。正面潜力和双用途风险都很明显。
为防止 Fable 5 的能力被大规模提取来训练竞品模型(尤其是在威权国家),分类器会标记疑似蒸馏请求并回退到 Opus 4.8。
Mythos 级模型的所有流量将保留 30 天。Anthropic 承诺这些数据不会用于训练新模型,也不会用于任何非安全目的,设有严格隐私保护:记录所有人工访问,30 天后几乎在所有情况下删除。
几家关键合作伙伴的评价:
Cursor CEO Michael Truell:Fable 5 在 CursorBench 上达到 SOTA,"打开了此前模型无法触及的长程问题领域"。 GitHub 产品总监 Mario Rodriguez:Fable 5 在复杂长程编码任务上的自主性和可靠性超越此前基准。 Replit CTO Fabian Hedin:Fable 5 理解的是"构建者的意图,而不仅仅是输入的文字",一年前需要 100 个 prompt 的应用现在可以一次生成。 Hebbia AI 研究负责人 Izzy Miller:Fable 5 是首个在核心分析基准上突破 90% 的模型,比 Opus 跃升 10 个百分点。 Pinecone CEO Sean Ward:Fable 5 的推理能力明显超越 Opus 4.8,"达到了高级研究科学家的水平"。
即日可用(模型 ID:claude-fable-5)Anthropic 预计 Fable 5 需求极高且难以预测,因此采取分阶段开放策略。6 月 22 日前订阅用户免费用,之后切换到 usage credits,等容量上来再恢复。
这次发布有几个值得关注的信号:
安全与能力的新平衡。 Fable 5 用了"分类器 + 回退"策略,而不是硬拒绝。触发安全分类器时,用户仍然从 Opus 4.8 拿到高质量响应,体验远好于直接报错。这套机制说明 Anthropic 在认真解决"如何同时开放能力和控制风险"这个难题。
定价激进。 10/50 低于此前任何 Mythos 级模型,也低于多数竞品旗舰。Anthropic 自己说需求会远超供应,这个定价既是竞争需要,也是引导用户走 API、缓解订阅端压力的手段。
科研能力的质变。 Mythos 5 在蛋白质设计和基因组学上的表现已经不只是"辅助工具"了,特定任务上匹配甚至超越人类专家。一个没专门训练过的任务上超越专用模型,通用推理能力在逼近某个临界点。
30 天数据保留是个重要转变。 隐私角度需要关注,但安全角度是对跨请求攻击这一真实威胁的务实回应。关键是 Anthropic 能不能守住"仅用于安全"的承诺。
Mythos 产品线的制度化。 从 Mythos Preview 到 Fable 5 + Mythos 5 双轨发布,Anthropic 正在建立一套可持续的"强能力受限发布"模式:同一个模型,根据安全等级以不同形式提供。这可能是未来超强模型发布的标准范式。