周一,Anthropic发布了其旗舰模型的最新版本Opus 4.5。这是Anthropic 4.5系列模型中最后发布的一款,此前已于9月推出Sonnet 4.5,10月推出Haiku 4.5。
正如预期,新版Opus在多项基准测试中表现出色,包括编程基准测试(SWE-Bench和Terminal-bench)、工具使用(tau2-bench和MCP Atlas)以及通用问题解决(ARC-AGI 2、GPQA Diamond)。
值得注意的是,Opus 4.5是首个在备受认可的编程基准测试SWE-Bench verified中得分超过80%的模型。
Anthropic还特别强调了Opus的计算机使用和电子表格处理能力,并推出了多款并行产品来展示该模型在这些场景下的表现。与Opus 4.5一同发布的,还有之前处于试点阶段的Claude for Chrome和Claude for Excel产品,现在将更广泛地提供给用户。Chrome扩展将面向所有Max用户开放,而专注于Excel的模型将面向Max、团队版和企业版用户提供。
Opus 4.5还在长上下文操作的记忆改进方面取得了进展,这需要对模型管理内存的方式进行重大调整。
Anthropic研究产品管理负责人Dianne Na Penn告诉TechCrunch:"我们在Opus 4.5的训练中对通用长上下文质量进行了改进,但仅仅依靠上下文窗口是不够的。知道要记住哪些正确的细节,这对于补充更长的上下文窗口非常重要。"
这些变化还启用了付费Claude用户长期请求的"无限聊天"功能,当模型达到其上下文窗口时,聊天可以继续进行而不会中断。相反,模型会压缩其上下文内存而不会提醒用户。
许多升级都着眼于智能体使用场景,特别是Opus作为主导智能体指挥一组由Haiku驱动的子智能体的情况。管理这些任务需要强大的工作记忆控制能力,这正是Penn描述的记忆改进真正显示其价值的地方。
Penn说:"这就是记忆等基础能力变得非常重要的原因,因为Claude需要能够探索代码库和大型文档,同时知道何时回溯和重新检查某些内容。"
Opus 4.5将面临来自其他最近发布的前沿模型的激烈竞争,最值得注意的是OpenAI的GPT 5.1(11月12日发布)和谷歌的Gemini 3(11月18日发布)。
Q&A
Q1:Opus 4.5相比之前的版本有哪些主要改进?
A:Opus 4.5在多个方面有显著提升:首先在编程基准测试SWE-Bench verified中得分超过80%,成为首个达到这一成绩的模型;其次增强了计算机使用和电子表格处理能力;最后改进了长上下文操作的记忆管理,支持"无限聊天"功能。
Q2:Claude for Chrome和Claude for Excel产品有什么特点?
A:这两款产品之前处于试点阶段,现在随Opus 4.5正式推出。Chrome扩展面向所有Max用户开放,而Excel专版面向Max、团队版和企业版用户提供。它们展示了Opus 4.5在浏览器和电子表格场景下的强大能力。
Q3:Opus 4.5的"无限聊天"功能是如何工作的?
A:当模型达到上下文窗口限制时,传统上聊天会中断。而Opus 4.5的"无限聊天"功能会自动压缩上下文内存,让对话继续进行而不会提醒用户,从而实现无中断的长时间对话体验。