首页
学习
活动
专区
圈层
工具
发布

Claude Opus 4.5夺回编程王座,超Gemini 3 Pro和GPT-5.1

作者 | 木子、高允毅

AI 编程之王又易主了。

昨晚,Anthropic悄悄按下发布键,Claude Opus 4.5直接在编码、Agent、电脑操作等多项“硬核能力”上全面登顶评测榜,超过 GPT-5.1 和最近在聚光灯下的 Gemini 3 Pro。

目前测试版(Beta 版)已上线,开发者可直接通过 Claude API 调用。

这里面的终端级编程能力(Agentic terminal coding)是个非常重要的指标,因为该指标体现了 AI 在真实终端(如电脑)环境中工作情况,不仅停留在文本层面;Claude Opus 4.5 也斩获第一,突破 59% 。

此外,它还在两小时限时考试里,把“史上最强人类候选者”甩在身后——而且据 Anthropic 首席产品官介绍,用的 token 数量还不到上一代的一半。

每百万 token 的最新定价为:5 美元 /25 美元(输入 / 输出);批量API 调用的价格更是打了 3 折左右。

Claude 老用户、一家AI 辅助编码初创公司的 CEO 表示,Opu 系列这波降价来得正好。

还有网友放出一张 Meme 图,锐评这几家大模型的高速宣发节奏。

新一代 Claude 的 Agent 有多强?

Claude Opus 4.5编码、Agent、计算机操作等方面,都夺得测评榜第一;下面来看看它的实际使用效果如何。

首先,在编程和系统调试方面,Claude Opus 4.5 能够直接完成工程师级别的任务:它会自己找网络接口,会调试跨系统 bug,还会操作桌面应用、Excel、浏览器。

Anthropic 内部工程师在模型发布前做了大量压力测试,反馈高度一致:Opus 4.5 能处理模糊目标、能在多种方案中权衡取舍、不需要人工把步骤写死。

测试者普遍认为 Opus 4.5 能“真正理解用户需求”,那些几周前 Sonnet 4.5 还几乎做不到的任务,现在对 Opus 4.5 来说已不再是难题。

他们还把模型拉去做了个两小时的高压考试,这本来是给去 Anthropic 应聘性能工程师出的题目,是连许多顶尖候选人都吃不消的 take-home 作业。

结果 Opus 4.5 在时间限制内拿到历史最高分,超过了所有人类候选者。它能读懂复杂代码库、拆解多系统交互,并在模糊指令下自动找出真正的 bug 来源。

虽然这份考试不涉及协作、沟通等软技能,但在纯技术判断与压力下的问题解决能力上,模型首次把“专业工程师”的门槛推向了一个全新位置。

而且 Opus 4.5 编写的代码质量更高,在 SWE-bench Multilingual 的 8 种编程语言中,有 7 种语言的性能比领先。

对于复杂业务决策与工具链操作,比如在τ2-bench 的航空客服场景中,基础经济舱不能改签是硬规定,普通模型都会直接拒绝。

但 Opus 4.5 懂得在规则限制下“迂回求解”——比如,航空公司拒绝给经济舱换航班,它就自己先换升舱、再换航班,两步走解决单步走不了的问题,这在 benchmark 中被算作“未预期的路径”。

长期任务稳定性方面,它也远超前代。在 Vending-Bench 测试中,Opus 4.5 的多步骤任务保持能力,比 Sonnet 4.5 高出29%,几乎不会“走着走着忘了要干什么”。

在视觉处理方面,Claude Opus 4.5 也遥遥领先于前代模型。据公司 CTO 介绍:

“Claude Opus 4.5 是唯一一个能搞定我们最棘手的 3D 可视化任务的模型...... 过去需要两小时才能完成的任务,现在只需要三十分钟。”

开发者平台也同步更新

为什么 Claude Opus 4.5 的 Agent 会一下子变得这么强?

除了模型层的思考能力显著提升,还有一个重要因素,就是平台级的高级工具调用能力(advanced tool use)升级——模型和平台协同,让 Agent 不仅能说清楚,还能办好事

升级之后的高级工具调用能力,也被放进了 Claude 开发者平台。

在传统 Agent 工作流里,AI 想真正承担“全能助手”的角色,其实面临三道大山——工具过多、调用过重、使用过难。

针对这三个痛点,Opus 4.5新增了三种“高级工具”,升级之后的高级工具调用能力,也被放进了 Claude 开发者平台:

Tool Search Tool:让模型像搜索引擎一样按需查找工具,而无需预加载全部定义。

Programmatic Tool Calling(PTC):允许 Claude 用代码(如 Python)而非单独的 API 来编排工具调用,减少上下文压力。

Tool Use Examples:教模型正确的工具调用方式,让其“看例子就会用”。

简言之,未来 AI 可以像人一样会选工具、会写自动化脚本、能看懂工具的正确用法

官方提供的Claude for Excel是最直观的例子。通过程序化工具调用,所有重载计算都在后台完成,Claude 只接收最终结果,实现了“大量数据不进脑,也能跑得快”。

Claude for Excel 的测试权限,已经扩展至所有 Max、Team 及 Enterprise 用户。

在 Mac 系统上使用 Control+Option+C,在 Windows 系统中使用 Control+Alt+C,即可在 Excel 中打开 Claude。

参考链接:

https://x.com/claudeai/status/1993030546243699119

https://www.anthropic.com/news/claude-opus-4-5

https://www.anthropic.com/engineering/advanced-tool-use

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OCoLaarbW9sFGmtGojV-earw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券