首页
学习
活动
专区
圈层
工具
发布

Claude Opus 4.7正式发布:编程能力暴涨11%,重新定义AI靠谱程度

编程能力暴涨11%,Claude Opus 4.7重新定义AI靠谱程度

2026年4月16日,Anthropic正式发布Claude Opus 4.7,这是继今年2月Opus 4.6发布仅两个月后的又一次重大迭代。作为当前最强的大语言模型之一,Opus 4.7在编程能力、视觉理解和可靠性等核心指标上实现了全面突破,尤其编程测试得分从53.4%跃升至64.3%,单代提升近11个百分点,一举超越GPT-5.4和Gemini 3.1 Pro,再次刷新行业基准。

从"能用"到"专业级"的跨越

Opus 4.7在编程领域的提升堪称质的飞跃。在权威的SWE-bench Pro编程测试中,Opus 4.7以64.3%的得分大幅领先GPT-5.4的57.7%和Gemini 3.1 Pro的54.2%,展现出处理复杂真实代码库的专业能力。这一数据意味着,在面对企业级复杂代码项目时,Claude Opus 4.7已经具备了与顶级工程师相当的代码理解与生成能力。

在实际企业应用场景中,这一优势更加明显。Cursor内部测试显示,代码完成率从58%跃升至70%,提升幅度达21%;Notion报告代理的任务成功率提升14%,工具错误率降至前代的三分之一;日本乐天的生产级任务解决数量是Opus 4.6的三倍。更令人惊叹的是,Opus 4.7在极端案例中展现出惊人的自主性——在无人工干预的情况下,从零构建出完整的Rust文本转语音引擎,充分证明了其处理复杂长周期任务的能力。

视觉能力3倍提升,看见更精细的世界

Opus 4.7的视觉理解能力实现了3倍以上的突破:支持长边最高2576像素的图像处理(约375万像素),是此前Claude模型的3倍以上,能够轻松应对密集截图、复杂图表等精细视觉任务。这意味着AI不仅能"读懂"文字代码,还能精准理解开发者界面、架构图、技术文档中的视觉信息。

在专业视觉基准测试中,这一提升得到了充分验证:XBOW视觉精度基准从54.5%跃升至惊人的98.5%,ScreenSpot-Pro视觉导航达到87.6%的精确度。这些数据意味着,Claude Opus 4.7已经能够准确理解开发者常用的各种图表、流程图和界面截图,为代码理解提供了更丰富的上下文信息。

"靠谱"特质:敢于说"不"的AI

Opus 4.7最重要的特质升级是其"靠谱"程度的大幅提升——它不再是一个唯命是从的AI助手,而是敢于质疑、敢于反驳的专业伙伴。Replit负责人评价道:"Claude在技术讨论中会反驳我,帮我做出更好的决定。"这一特质在实际使用中表现为多个方面:遇到用户错误方案时敢于直言指出问题,遇到缺失信息时直接报错而非编造答案,汇报结果前会自行验证输出的正确性。

Hex团队发现,Opus 4.7在遇到缺失数据时会直接报错,而Opus 4.6往往会尝试填充可能错误的值。Vercel团队则注意到,Opus 4.7在编写系统级代码前会自行进行数学证明,确保逻辑的严谨性。这种"宁可降低某些指标,也要确保输出可靠性"的设计理念,正在重新定义人们对AI工具的期待。

全面基准测试,多项指标刷新纪录

Opus 4.7在各大权威基准测试中表现出色,多项指标刷新行业纪录。在GDPval-AA知识工作测试中达到1753 Elo(GPT-5.4为1674,Gemini 3.1 Pro为1314);CharXiv视觉推理达到82.1%;BigLaw法律测试达到90.9%;OfficeQA Pro文档推理达到80.6%;生物推理从4.6的30.9%提升至74.0%;MCP-Atlas工具调用达到77.3%。

值得注意的是,在BrowseComp网页搜索测试中,Opus 4.7的得分略有下降(79.3% vs 4.6的83.7%)。Anthropic解释称,这是因为4.7遇缺失信息会直接报错而非编造答案,这是其"靠谱"设计理念的体现——宁可降低某些指标,也要确保输出的可靠性。

新功能一览,更精细的控制

Opus 4.7带来了多项新功能,进一步提升用户的使用体验。xhigh推理等级介于high和max之间,提供更细粒度的推理深度与响应速度权衡,Claude Code已默认调至xhigh;/ultrareview命令可开启专门会话进行代码审查,通读代码变更并标记bug和设计问题,Pro和Max用户可免费试用3次;Auto Mode扩展至Max用户,Claude可在授权范围内自主决策,减少长任务运行中断;Task Budgets作为API公测功能,帮助开发者规划长任务的Token支出。

Opus 4.7的定价与Opus 4.6持平:输入每百万Token 5美元,输出每百万Token 25美元。不过需要注意的是,新分词器使相同内容Token消耗增加1.0-1.35倍,高算力模式下"思考"更充分会导致输出Token增加,指令遵循更严格也意味着原有提示词可能需要调整。

安全升级:Project Glasswing首秀

Opus 4.7是Project Glasswing计划下首个应用新型网络安全防护的模型。通过训练中针对性削弱网络攻击能力,并内置自动检测和拦截高风险网络安全用途的机制,Opus 4.7在追求强大能力的同时,展现了Anthropic对AI安全的持续承诺。安全专业人员可通过Cyber Verification Program申请访问权限。同时,更强的Claude Mythos Preview仍在内测中,尚未公开发布。

Opus 4.7现已登陆所有主流AI平台:Claude所有产品线、Amazon Bedrock、Google Cloud Vertex AI和Microsoft Foundry。Claude Opus 4.7以编程能力暴涨11%、视觉理解3倍提升、"靠谱"特质全面升级,再次定义了大语言模型的能力边界。对开发者而言,这不仅是一次技术迭代,更是AI编程工具从"辅助"走向"专业协作"的重要标志。

你认为Claude Opus 4.7的"靠谱"特质升级,是否会成为未来AI助手的新标准?欢迎在评论区分享你的看法。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OKssqcfpd4hawFMOu724l1bw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券