首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Anthropic 发布最强代码模型 Claude 4

内容简介

最近各路神仙打架,不断推出新品,微软谷歌Claude,应接不暇。

5 月 23 日凌晨,Anthropic 在首届开发者大会“Code with Claude”上推出新一代语言模型 Claude Opus 4 和 Claude Sonnet 4 ,在结构化推理、软件工程和自主代理行为等领域实现重大进步。

现场没灯光秀,也没有花哨的口号,CEO Dario Amodei 开口就是重点:

我们不再教 AI 写代码,而是让它开始独立完成项目。

Claude 4 在后台完成前所未有的任务演示:接收一个模糊目标 自主拆解为子任务 自动调用工具 编写多模块代码 自测上线。

Claude 不再是被问问题的模型,而是能接目标、配资源、做交付的智能体。

(1)Claude 4

这两款新模型Claude Opus 4 和 Claude Sonnet 4进一步丰富了Claude 4 家族。

这些模型能分析大规模数据集、执行长周期任务并处理复杂操作。

两款模型都针对编程任务进行了优化,适合用于编写和编辑代码。

评测显示,4比3.7高出10个百分点,成为新晋王者。

另外,两款模型均具备混合推理能力(双模式),提供“快速模式”(Fast Mode)用于低延迟的简短对话任务,以及“扩展思考模式”(Extended Thinking Mode)用于需要深度推理和多轮代理行为的复杂任务。

前者面向企业用户,后者面向个人。

如何使用?

付费用户才能用 Opus 4,免费用户只能用 Sonnet 4。

Anthropic API上,每百万个输入/输出 token定价:

Opus 4  为 15 美元/75 美元

Sonnet 4 为 3 美元/15 美元

(2)Claude Opus 4

Claude Opus 4 被定位为 Anthropic 迄今最强大的模型,专为处理复杂的推理流程和软件开发场景设计。

测试数据显示,该模型在

SWE-bench 基准测试(解决真实 GitHub 问题)中准确率达到 72.5%;

TerminalBench 测试(多步骤终端代码生成任务)中准确率为 43.2%。

更令人瞩目的是,Opus 4 在软件环境中展现出强大的自主行为,得益于:

改进的内存管理

更广泛的上下文保留

更强大的内部规划机制

据 Rakuten 测试数据,可连续进行近 7 小时的代码生成和任务执行,刷新 AI 世界纪录,远超前代 Claude 3 Opus(不到 1 小时)。

(3)Claude Sonnet 4

平衡性能与成本的通用选择

Claude Sonnet 4 取代了前代 Claude 3.5 Sonnet,以更稳定的架构提升速度与质量,同时未显著增加计算成本。该模型针对中规模部署优化,适合需要在成本与性能间权衡的场景。

尽管推理能力不及 Opus 4,但 Sonnet 4 继承了许多架构升级,支持多文件代码导航、中间工具使用和结构化文本处理,延迟表现更佳。它成为 Claude.ai 免费用户的默认模型,并通过 API 提供服务,适用于轻量开发工具、用户助手和分析流程。

(4)新功能

新功能:

工具使用中的扩展思考(Extended Thinking

):边思考边使用工具(比如网络搜索),同时根据任务需求在推理和工具使用之间自由切换

注:一条提示词,直接做出原型页面,并发布到公网,提示词全部省略。

记忆能力大升级

Claude访问本地文件权限时,Opus 4 自动创建和维护"记忆文件", 提取和保存关键信息、在长时间任务中保持连续性。

官方甚至展示 Claude 玩《精灵宝可梦》时,自己做的导航笔记:

并行工具执行

多个工具同时运行,效率起飞。

比如,让Claude生成明确并行处理的任务,然后,Claude按照提示词要求,拆解成四个并行任务,并分析任务的依赖关系来决定并行策略。

“自我约束”

这是不炫技、但极其关键的特性:大模型“知道什么不该做”。

Anthropic 把 Claude 4 安全等级定义为 ASL-3,内部最高的行为标准之一。具体表现:

不轻易走捷径、不为了完成任务而乱猜答案;

不试图逃避流程、不提供敏感代码或可疑建议;

遇到逻辑冲突,会提醒用户,而不是编个看似合理的回答搪塞过去。

Anthropic 的评估中,Claude 4 在智能体场景下“行为偏差”比 Sonnet 3.7 减少 65%

模型不只是变得更聪明,而是更可信。聪明很容易,可信很难。

 Claude Code

此次,同步发布 Claude Code。

支持功能:

VS Code和JetBrains原生集成

GitHub Actions后台任务

实时文件编辑显示

可扩展SDK

同时,集成github,可直接在PR中@Claude Code,修复CI代码。

(5)影响

Anthropic 称: AI 模型不是为了消除工作岗位,而是一种将日常工作自动化的工具。

不过,这话鬼信,大模型越强悍,裁员越多。

marktechpost 媒体认为,Claude 4 系列问世后,将进一步改变 AI 使用方式,让 AI 从完成单一任务的辅助工具,转换为具备更强、更广泛功能的“AI 同事”,可以自动完成完整工作。

Vibe Coding会逐步走进现实,同时,初级、中级码农、产品、测试等会下岗。

微软裁员新闻尚有余温:

5月13日,微软宣布将在全球范围内裁员约6000人,占22.8万名员工总数的3%,其中华盛顿州就有1,985人被裁,包括在办公室工作的1,510人和远程工作的475人

这是自2023年裁员1万人以来,规模最大的一次裁员。

附录

参考:

Claude 4上线:Anthropic不再教AI编程,而是让它自己写项目,https://news.qq.com/rain/a/20250523A01NFZ00

Claude 4发布 https://zhuanlan.zhihu.com/p/1909077991226603285

大模型助手(小程序)

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OQkL44qOuWmK4xLD-seQUvkA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券