Anthropic周一推出其旗舰AI模型的最新版本Claude Opus 4.5,称该模型在软件工程方面比以往版本更强,能更好地执行自动化编程和办公任务。
在自家高难度编程入职测试中,这个新模型得分超过了所有人类求职者。没错,在2小时的严格时限内,AI首次在纯技术能力上实现了对人类的超越。
【更聪明,还更省钱】除了能力跃升,Opus 4.5还带来一个惊喜:API价格仅为每百万token 25美元,直接降到前代的三分之一。
更妙的是,它引入了“努力程度”控制。开发者现在可以根据任务需求,在速度、成本和性能间自由调节:
中等努力:在SWE-bench Verified榜单上达到Sonnet 4.5的最高分,但输出token减少76%
最高努力:性能超出Sonnet 4.5达4.3个百分点,token消耗仍减少48%
这意味着,用更少的钱,能办更多的事。
【AI学会“钻空子”】
在测试AI自主解决问题能力的τ-bench中,Opus 4.5展现出了令人惊讶的“变通”能力。
测试场景是:作为航空公司客服,帮助一位焦虑的客户修改不可退改的基础经济舱机票。大多数模型会选择直接拒绝,但Opus 4.5找到了一条合规路径:先帮客户升舱,然后再修改航班。
【三大新功能:让AI像人类一样灵活用工具】
1. 工具搜索:随用随取,不占内存
以前AI工具越多,“说明书”越占内存,连5个服务器就能占5.5万字空间。现在AI一开始只带个“搜索功能”(仅500字),需要时再按关键词查找工具,内存占用从7.7万降至8.7万,省下85%内存的同时保留95%可用空间。
2. 程序化调用:写脚本批量操作
传统方式中,AI查10MB日志或2000条记录时,所有数据都会塞爆“短期记忆”。现在AI学会了自己写Python脚本在沙箱中运行。比如查“谁超了差旅预算”,AI不再需要记住2000条数据,而是直接输出的最终结果。
3. 使用示例:看样学样,避免用错
工具说明书只告诉AI“格式要对”,但没教具体怎么用。现在直接在说明书里加入3-5个真实例子,复杂参数的正确率从72%提升到90%。
这三个功能最好搭配使用:工具多时先用搜索,数据量大时用程序化调用,参数复杂时加使用示例。如此,AI就能从“一次用一把扳手”进化成“智能指挥家”,轻松处理跨几十个工具、大数据量的真实工作。