内容简介
最近各路神仙打架,不断推出新品,微软谷歌Claude,应接不暇。
5 月 23 日凌晨,Anthropic 在首届开发者大会“Code with Claude”上推出新一代语言模型 Claude Opus 4 和 Claude Sonnet 4 ,在结构化推理、软件工程和自主代理行为等领域实现重大进步。
现场没灯光秀,也没有花哨的口号,CEO Dario Amodei 开口就是重点:
我们不再教 AI 写代码,而是让它开始独立完成项目。
Claude 4 在后台完成前所未有的任务演示:接收一个模糊目标 自主拆解为子任务 自动调用工具 编写多模块代码 自测上线。
Claude 不再是被问问题的模型,而是能接目标、配资源、做交付的智能体。
(1)Claude 4
这两款新模型Claude Opus 4 和 Claude Sonnet 4进一步丰富了Claude 4 家族。
这些模型能分析大规模数据集、执行长周期任务并处理复杂操作。
两款模型都针对编程任务进行了优化,适合用于编写和编辑代码。
评测显示,4比3.7高出10个百分点,成为新晋王者。
另外,两款模型均具备混合推理能力(双模式),提供“快速模式”(Fast Mode)用于低延迟的简短对话任务,以及“扩展思考模式”(Extended Thinking Mode)用于需要深度推理和多轮代理行为的复杂任务。
前者面向企业用户,后者面向个人。
如何使用?
付费用户才能用 Opus 4,免费用户只能用 Sonnet 4。
Anthropic API上,每百万个输入/输出 token定价:
Opus 4 为 15 美元/75 美元
Sonnet 4 为 3 美元/15 美元
(2)Claude Opus 4
Claude Opus 4 被定位为 Anthropic 迄今最强大的模型,专为处理复杂的推理流程和软件开发场景设计。
测试数据显示,该模型在
SWE-bench 基准测试(解决真实 GitHub 问题)中准确率达到 72.5%;
TerminalBench 测试(多步骤终端代码生成任务)中准确率为 43.2%。
更令人瞩目的是,Opus 4 在软件环境中展现出强大的自主行为,得益于:
改进的内存管理
更广泛的上下文保留
更强大的内部规划机制
据 Rakuten 测试数据,可连续进行近 7 小时的代码生成和任务执行,刷新 AI 世界纪录,远超前代 Claude 3 Opus(不到 1 小时)。
(3)Claude Sonnet 4
平衡性能与成本的通用选择
Claude Sonnet 4 取代了前代 Claude 3.5 Sonnet,以更稳定的架构提升速度与质量,同时未显著增加计算成本。该模型针对中规模部署优化,适合需要在成本与性能间权衡的场景。
尽管推理能力不及 Opus 4,但 Sonnet 4 继承了许多架构升级,支持多文件代码导航、中间工具使用和结构化文本处理,延迟表现更佳。它成为 Claude.ai 免费用户的默认模型,并通过 API 提供服务,适用于轻量开发工具、用户助手和分析流程。
(4)新功能
新功能:
工具使用中的扩展思考(Extended Thinking
):边思考边使用工具(比如网络搜索),同时根据任务需求在推理和工具使用之间自由切换
注:一条提示词,直接做出原型页面,并发布到公网,提示词全部省略。
记忆能力大升级
Claude访问本地文件权限时,Opus 4 自动创建和维护"记忆文件", 提取和保存关键信息、在长时间任务中保持连续性。
官方甚至展示 Claude 玩《精灵宝可梦》时,自己做的导航笔记:
并行工具执行
多个工具同时运行,效率起飞。
比如,让Claude生成明确并行处理的任务,然后,Claude按照提示词要求,拆解成四个并行任务,并分析任务的依赖关系来决定并行策略。
“自我约束”
这是不炫技、但极其关键的特性:大模型“知道什么不该做”。
Anthropic 把 Claude 4 安全等级定义为 ASL-3,内部最高的行为标准之一。具体表现:
不轻易走捷径、不为了完成任务而乱猜答案;
不试图逃避流程、不提供敏感代码或可疑建议;
遇到逻辑冲突,会提醒用户,而不是编个看似合理的回答搪塞过去。
Anthropic 的评估中,Claude 4 在智能体场景下“行为偏差”比 Sonnet 3.7 减少 65%
模型不只是变得更聪明,而是更可信。聪明很容易,可信很难。
Claude Code
此次,同步发布 Claude Code。
支持功能:
VS Code和JetBrains原生集成
GitHub Actions后台任务
实时文件编辑显示
可扩展SDK
同时,集成github,可直接在PR中@Claude Code,修复CI代码。
(5)影响
Anthropic 称: AI 模型不是为了消除工作岗位,而是一种将日常工作自动化的工具。
不过,这话鬼信,大模型越强悍,裁员越多。
marktechpost 媒体认为,Claude 4 系列问世后,将进一步改变 AI 使用方式,让 AI 从完成单一任务的辅助工具,转换为具备更强、更广泛功能的“AI 同事”,可以自动完成完整工作。
Vibe Coding会逐步走进现实,同时,初级、中级码农、产品、测试等会下岗。
微软裁员新闻尚有余温:
5月13日,微软宣布将在全球范围内裁员约6000人,占22.8万名员工总数的3%,其中华盛顿州就有1,985人被裁,包括在办公室工作的1,510人和远程工作的475人
这是自2023年裁员1万人以来,规模最大的一次裁员。
附录
参考:
Claude 4上线:Anthropic不再教AI编程,而是让它自己写项目,https://news.qq.com/rain/a/20250523A01NFZ00
Claude 4发布 https://zhuanlan.zhihu.com/p/1909077991226603285
大模型助手(小程序)
领取专属 10元无门槛券
私享最新 技术干货