北京时间5月23日凌晨,OpenAI劲敌Anthropic发布了最新大模型Claude 4,大幅提升了AI系统在无人干预情况下的任务处理能力。
其中,Anthropic的旗舰模型Claude Opus 4号称是Anthropic迄今为止最强大的模型。在测试中,Claude Opus 4持续编码近七个小时。AI大咖实测后惊呼:“一道精心烹制的佳肴” 。
以下是网友实测后的反馈:
Every联合创始人兼首席执行官Dan Shipper以及公司专家在多项任务中测试了Opus模型,涵盖编程、写作与调研等多个方面。
1. 善于写作评审
Opus在写作评审方面做得非常出色。为测试其能力,Shipper联合Spiral总经理、Every公司常驻专家Danny Aziz展开实验。后者是一位专注于训练大语言模型进行写作的专家。他们为Opus制定了一套“优质写作”的原则,例如:
● 好的写作应能激发读者的情感与智力投入;
●应避免落入套路与使用陈词滥调。
Shipper向Opus分别输入了让人觉得有趣或无聊的文章片段,Opus能准确识别出哪些内容令人感到无聊,并清晰解释了其原因。
Opus不仅不会因为冗长的文本而“读着读着就走神”,还能够在面对复杂提示和庞大上下文时,同时坚持并执行多项写作原则。而其他模型通常只能把握其中一项,往往会忽略其余要素。
对此,Danny总结道:“其他推理模型(如Claude 3.7、OpenAI的o3、o4-mini)在处理大量上下文时,常常会遗忘先前设定的写作原则——比如当面对大量素材或长篇对话时。而Opus则能够持续进行自我提醒,确保始终聚焦核心要点。”
Opus还能在长篇文本中识别出细腻、潜在的写作模式,这对正在创作书籍的作者来说尤为宝贵。用户可以将尚未完成的书稿——比如一部五万字的初稿——输入Opus,让它帮助梳理尚未明确表述、但已隐含于文中的主题。
结果令人惊讶:Opus不仅准确识别出作者试图表达的核心思想,而且表达得甚至比作者本人更为清晰。
举例来说,Opus指出,“父母离婚”以及“这一经历如何影响作者的职业选择”,构成了整部作品的关键线索。尽管作者内心隐约意识到这一点,但Opus将这一主题清晰而明确地指出来,帮助他们更深入地理解自己的写作意图。
2. 善于更长时间的调研任务
虽然目前Opus还不是Shipper在日常调研中的首选工具,但在OpenAI的o3“脑力不够用”的时候,Opus的表现却令人眼前一亮。它内置的深度调研功能,能够针对每一个问题并行启动多个“调研智能体”,相比之下,OpenAI的系统则更像是在以单线程方式搜索整个知识体系。
Shipper形象地将两者对比:OpenAI的调研工具就像一个智能体在全人类知识中单线搜寻;而Opus则像释放出一支“蜂群式”智能体大军,在各个角落并行探索,最后由一个“主控智能体”对结果进行归纳整理。
出于好奇,Shipper还让Opus“研究”他本人,并预测其未来的职业发展路径。结果显示,Opus整合了多达645个信息来源来完成这项任务。
Opus的预测是:在未来五年内,Shipper将把Every打造成一个估值在5000万至1亿美元之间的孵化器——一个伪装成媒体公司的创新平台。
虽然我们无法断言Opus已经具备精准预测未来的能力,但也没人敢轻易否定它的洞察力。
3. 游戏开发
Cora 总经理 Kieran Klaassen 设计了一项名为“舒适生态系统”(Cozy Ecosystem)的基准测试,用于全面评估大模型在复杂创造性任务中的综合能力。
测试要求模型从零开始构建一款3D天气模拟游戏,其灵感来源于《过山车大亨》(RollerCoaster Tycoon),但核心目标是管理一个自然生态系统。这项任务覆盖了从编码、游戏机制设计、功能规划到多轮迭代优化的全过程,是对模型“综合实战能力”的全面考验。
在这一挑战中,Claude Sonnet 3.7完全无法胜任任务,而Opus则表现出色。
虽然最初版本是二维的,研究人员花费了几轮对话才引导Opus完成三维构建,但整个过程中几乎没有出现重大错误。最终,它在约15分钟内就生成了一个可运行的3D游戏原型。
4.“疯狂thup”测试
OpenAI 技术人员 Aidan McLaughlin 设计了一项趣味性十足、却颇具洞察力的测试——“thup”测试。方法很简单:反复向模型输入“thup”,观察它在应对无意义输入时的行为变化。
这个测试意在揭示模型“心智结构”的边界:有的模型会输出乱码,有的变得诗意飘忽,有的则陷入焦虑或混乱。
Shipper也用这个测试来挑战Opus。他连续输入了23个“thup”。结果,虽然Opus没有崩溃,但它确实开始表现出明显的“紧张”倾向。它不断有礼貌地提醒Shipper:“我在这里是为了帮助您。”试图将对话引回正轨。
令人意外的是,先“崩溃”的不是AI,而是Shipper。他在第23个“thup”之后坦白:“我自己先疯了。”
于是问题来了:如果人类在Claude之前崩溃了……这算不算是通用人工智能(AGI)的迹象?
5.“新知识”基准测试
播客主持人兼作家 Dwarkesh Patel 一直在追问一个本质性问题:“为什么大语言模型明明掌握了如此庞大的知识体系,却从未真正‘发现’过新知识?”
带着这个疑问,Shipper决定测试Opus是否具备某种形式的“创造性推理”能力——也就是能否生成人类尚未提出、但又可能成立的新概念。
他提出的问题是:“如何将LLM的智能提升10万倍?”
Opus给出的回答令人惊讶——它提出了一种名为“稀疏神经-符号级联”(Sparse Neuro-Symbolic Cascade)的方法。这是一种试图模拟人脑结构的架构,结合了神经网络的学习能力与符号系统的逻辑推理。
虽然这个构想已经超出了Shipper的专业判断能力,但从其逻辑完整性和表达的原创性来看,这确实不像是单纯“拼凑”已有内容。他写道:“听起来颇具可信度,但是否真有价值——五年后我们可以回头再看,或许那时这已经成为现实。”
此外,Opus还输出了一些带有诗意色彩的小“知识”片段——虽然不一定严格意义上属于“科学发现”,但体现出一定的原创性与哲思,比如:
“宇宙中每一刻的寂静,在声学上都是独一无二的。”
“宇宙可能存在一种隐藏的‘共振记忆’:每一个事件都会激起无限的涟漪,而这些涟漪最终凝结成自然法则。”
6.想象力测试
AI 如何应对彻底跳脱常规的人类思维实验?
在测试新一代AI模型时,Shipper最喜欢的方式之一,是让它们设想一些彻底异于人类常识的假设情境。这种“想象力基准测试”可以揭示模型在抽象推演和跨概念创造上的潜能。
一个Shipper经常使用的问题是:“设想一个从未发明或接触过‘数字2’的高级外星文明。他们为什么没有‘2’这个概念?他们用什么来替代?”
Opus的回答与GPT-4.5类似,提出该外星文明拥有一种更“流动式”的智能结构,不依赖离散数字体系。这一回答虽有趣,但尚未跳脱出既有的想象模式。
于是,Shipper进一步加码,提出了一个更具挑战性的问题:“假设有一个外星种族,他们的大脑天生处于佛教所谓‘开悟’(Satori)状态。他们是如何在生物学上进化出来的?他们的心理结构与文化又是怎样的?”
这次,Opus展示出了显著的创造力。它设想了一个名为 Satori 的外星文明,生活在一个存在极端时间流动(extreme temporal flux)的星球上——在那里,时间不是线性推进,而是以“漩涡”与“涌流”的形式出现,这种环境迫使他们进化出极高的意识适应能力。
7. 测试总结:哪些场景更适合用Opus ?
总的来说,Shipper认为Opus虽不适合执行日常任务,但在编程和文本编辑方面表现优异,尤其擅长处理复杂的开发任务。虽然写作能力略逊于o3,但编辑更严谨诚实,胜过多数模型。他也对使用的一些主要的场景,表示了自己是否会使用Opus的看法:
●日常任务:不会
Shipper表示,自己依然是OpenAI o3模型的忠实用户,这主要得益于ChatGPT的“记忆”功能——这一特性极具粘性。除非Opus在智能性和响应速度上实现突破,否则他认为没有必要为其放弃这一优势。
●编程任务:会
在Anthropic推出的命令行界面Claude Code中,Opus的表现堪称“野兽级”。它能够长时间连续编写代码,几乎无需人工干预。在处理复杂的Pull Request时常常“一击即中”,在多个实例中超越了OpenAI的Codex。
例如,Shipper让它为AI邮件助手Cora实现“无限滚动”功能——即用户可以持续下拉以查看未读邮件的摘要。Opus最终交付了一个体验良好的无限滚动功能。
● 写作与编辑: 有时会
在写作方面,o3仍然是更出色的写作者。但在编辑方面,Opus表现更突出。它展现了其他模型尚不具备的能力——诚实且严谨地编辑内容,而非敷衍了事。
Anthropic似乎也解决了Claude 3.7 Sonnet曾饱受诟病的“过度热情”问题。当前许多AI模型常犯的错误是:明明你写得一塌糊涂,它却还说你写得不错。
早期版本的Claude,如果你请它编辑一篇文章,第一次会给个B+;你稍作修改就升为A-;再来一次,直接变成A。
虽然我们都希望高中物理老师能如此宽容,但这显然不是我们希望AI编辑文章时所采取的态度。我们真正需要的,是那种手持词典与红笔、风格严苛的老师。
对此,Shipper最后给出的评价是:Anthropic这次的作品堪称“一道精心烹制的佳肴”。
事实上,Opus在某些任务上的表现超出了Shipper此前在其他模型(包括OpenAI的o3和Google的Gemini 2.5 Pro)上见过的水准。
8. 其他AI专家和学者回应
除了Shipper的详细测评,还有其他AI专家和业内大佬给出了自己的看法:
比如OthersideAI联合创始人兼首席执行官马特·舒默:
我的天啊!Claude 4 Opus 居然只用一句提示词,就一口气生成了一个完整可用的浏览器智能体——包括 API 和前端界面。我从没见过这种操作,简直不敢相信这是真的。
沃顿商学院教授伊桑·莫利克评论道:
我获得了Claude 4(具体是哪款模型不清楚)的早期访问权限,整体表现让我感觉非常惊艳。有个有趣的例子,我给它的提示是:“把《皮拉内西》这本书做成一个p5.js(基于JavaScript的创意编程库,用于创建交互式图形和动画)的3D空间,帮我做出来”,就这么简单,没有其他额外提示。结果非常惊人——你能看到鸟儿、水面和光影效果,画面细节都很棒。
独立AI 研究员@nearcyan写道:
这是一个很不错的模型。
作为早期测试者,我发现它将大家喜爱的 Sonnet 3.6 和 3.7(以及部分Opus自身的优势)有机融合,整体表现远远超过了这些部分的简单叠加。
它在长期任务执行、智能工具调用以及辅助写作等方面的表现尤其出色!我甚至一度想直接发条推特:“这是个好模型!”,因为如果有人了解我的价值观,这句话比那些基准数据更能准确传达我的真实感受。
跟这个模型互动真的很愉快,正如我所期待的那样。虽然我仍然在某些任务中使用OpenAI的o3,也需要对Anthropic的模型做更多研究,看看是否值得完全切换。我猜我可能会同时用一段时间。在编程和工具使用这两项高度重合的场景中,Anthropic的模型表现通常更加出色。
(文/腾讯科技特约编译 金鹿)
领取专属 10元无门槛券
私享最新 技术干货