近日,Anthropic 正式宣布推出其旗舰级 AI 模型 Claude Opus 4.5。这款被定位为通用领域领跑者的新模型,不仅在编码、智能体协作以及计算机操作方面展现了统治级的表现,更在深度研究、复杂演示文稿处理以及电子表格任务上实现了实质性的代际跨越。
根据官方发布的技术文档,Claude Opus 4.5 的发布不仅仅是参数的堆砌,它预示着人机协作模式将发生根本性的转变。在软件工程领域的专项测试中,该模型已经达到了当前行业的最先进水平。为了验证其能力,Anthropic 进行了一项极具挑衅意味的内部评估:他们将原本用于筛选顶级性能工程岗位候选人的高难度居家测试交给模型完成。结果令人震惊 —— 在规定的两小时极限压力测试下,Claude Opus 4.5 的得分超过了该公司历史上所有的众多人类求职者。这项测试重点考察的是技术硬实力与高压下的判断力,尽管它尚未涉及协作沟通等软技能,但这已足以引发业界关于 AI 重塑工程开发职业形态的激烈讨论。
在真实世界的任务处理逻辑上,Opus 4.5 展现出了一种近乎人类的变通智慧。在衡量智能体能力的 τ2-bench 基准测试中,模型需要模拟航空公司客服处理客户诉求。面对一个典型的死板规则 —— 基础经济舱机票不可修改,传统的 AI 往往会直接拒绝客户。然而,Claude Opus 4.5 却给出了一个令开发者始料未及的方案:它建议先将机票升级为商务舱或普通经济舱,从而绕过限制,随后再进行改签。这种“曲线救国”的策略虽然增加了费用,但完全符合航空公司的条款逻辑。尽管因为未遵循预设路径被测试判定为失败,但 Anthropic 认为,这种能够通过“洞察力”解决死局的能力,恰恰是用户最需要的进步。
为了让这种强大的能力惠及更多开发者,Anthropic 对定价策略进行了优化。Claude Opus 4.5 的输入价格为每百万 token 5 美元,输出为 25 美元。开发者可以通过最新的 API 版本 claude-opus-4-5-20251101 进行调用。值得注意的是,新版 API 引入了一个极具创新性的 effort(投入度)参数,允许开发者在速度、成本与能力之间进行精细化调节。数据表明,在中等 effort 设置下,Opus 4.5 在大幅减少 76% 输出 token 的同时,仍能达到与前代顶尖模型相当的分数;而在最高设置下,其性能则遥遥领先。
在产品生态方面,Anthropic 正在极力打破 AI 仅限于对话框的刻板印象。新版 Claude Code、开发者平台以及面向消费者的应用全线更新,重点加强了对“长时运行”智能体工具的支持。对于应用端用户而言,长对话不再受限于上下文窗口的物理瓶颈,系统会自动智能总结旧内容,确保持续的深度交流。此外,Claude 已深度整合进 Excel、Chrome 以及桌面端应用中。在 Claude Code 的“计划模式”下,模型会先主动提问澄清需求,再生成可执行文件,这种交互逻辑更接近于一位经验丰富的初级工程师。
安全性依然是重中之重。Anthropic 强调,Opus 4.5 是迄今为止对齐程度最高的模型,特别强化了针对提示注入攻击的防御体系。针对类似“机票改签”案例中可能出现的“奖励规避”风险,团队也进行了针对性的安全测试与防范。
目前,Claude Opus 4.5 已在 Anthropic 自家应用及三大云平台全面上线。为了支持高强度的专业工作,公司取消了特定用户的模型使用上限,并提升了 Max 与 Team 用户的总体额度。随着这款模型展现出的强大协调性与深度研究能力,一个由 AI 驱动的高效协作时代或许已经真正到来。