文章/答案/技术大牛

发布

专家实测Anthropic ：连输23次无意义对话后，Claude 4开始“礼貌破防”

文章来源：企鹅号 - 腾讯科技

北京时间5月23日凌晨，OpenAI劲敌Anthropic发布了最新大模型Claude 4，大幅提升了AI系统在无人干预情况下的任务处理能力。

其中，Anthropic的旗舰模型Claude Opus 4号称是Anthropic迄今为止最强大的模型。在测试中，Claude Opus 4持续编码近七个小时。AI大咖实测后惊呼：“一道精心烹制的佳肴” 。

以下是网友实测后的反馈：

Every联合创始人兼首席执行官Dan Shipper以及公司专家在多项任务中测试了Opus模型，涵盖编程、写作与调研等多个方面。

1. 善于写作评审

Opus在写作评审方面做得非常出色。为测试其能力，Shipper联合Spiral总经理、Every公司常驻专家Danny Aziz展开实验。后者是一位专注于训练大语言模型进行写作的专家。他们为Opus制定了一套“优质写作”的原则，例如：

● 好的写作应能激发读者的情感与智力投入；

●应避免落入套路与使用陈词滥调。

Shipper向Opus分别输入了让人觉得有趣或无聊的文章片段，Opus能准确识别出哪些内容令人感到无聊，并清晰解释了其原因。

Opus不仅不会因为冗长的文本而“读着读着就走神”，还能够在面对复杂提示和庞大上下文时，同时坚持并执行多项写作原则。而其他模型通常只能把握其中一项，往往会忽略其余要素。

对此，Danny总结道：“其他推理模型（如Claude 3.7、OpenAI的o3、o4-mini）在处理大量上下文时，常常会遗忘先前设定的写作原则——比如当面对大量素材或长篇对话时。而Opus则能够持续进行自我提醒，确保始终聚焦核心要点。”

Opus还能在长篇文本中识别出细腻、潜在的写作模式，这对正在创作书籍的作者来说尤为宝贵。用户可以将尚未完成的书稿——比如一部五万字的初稿——输入Opus，让它帮助梳理尚未明确表述、但已隐含于文中的主题。

结果令人惊讶：Opus不仅准确识别出作者试图表达的核心思想，而且表达得甚至比作者本人更为清晰。

举例来说，Opus指出，“父母离婚”以及“这一经历如何影响作者的职业选择”，构成了整部作品的关键线索。尽管作者内心隐约意识到这一点，但Opus将这一主题清晰而明确地指出来，帮助他们更深入地理解自己的写作意图。

2. 善于更长时间的调研任务

虽然目前Opus还不是Shipper在日常调研中的首选工具，但在OpenAI的o3“脑力不够用”的时候，Opus的表现却令人眼前一亮。它内置的深度调研功能，能够针对每一个问题并行启动多个“调研智能体”，相比之下，OpenAI的系统则更像是在以单线程方式搜索整个知识体系。

Shipper形象地将两者对比：OpenAI的调研工具就像一个智能体在全人类知识中单线搜寻；而Opus则像释放出一支“蜂群式”智能体大军，在各个角落并行探索，最后由一个“主控智能体”对结果进行归纳整理。

出于好奇，Shipper还让Opus“研究”他本人，并预测其未来的职业发展路径。结果显示，Opus整合了多达645个信息来源来完成这项任务。

Opus的预测是：在未来五年内，Shipper将把Every打造成一个估值在5000万至1亿美元之间的孵化器——一个伪装成媒体公司的创新平台。

虽然我们无法断言Opus已经具备精准预测未来的能力，但也没人敢轻易否定它的洞察力。

3. 游戏开发

Cora 总经理 Kieran Klaassen 设计了一项名为“舒适生态系统”（Cozy Ecosystem）的基准测试，用于全面评估大模型在复杂创造性任务中的综合能力。

测试要求模型从零开始构建一款3D天气模拟游戏，其灵感来源于《过山车大亨》（RollerCoaster Tycoon），但核心目标是管理一个自然生态系统。这项任务覆盖了从编码、游戏机制设计、功能规划到多轮迭代优化的全过程，是对模型“综合实战能力”的全面考验。

在这一挑战中，Claude Sonnet 3.7完全无法胜任任务，而Opus则表现出色。

虽然最初版本是二维的，研究人员花费了几轮对话才引导Opus完成三维构建，但整个过程中几乎没有出现重大错误。最终，它在约15分钟内就生成了一个可运行的3D游戏原型。

4.“疯狂thup”测试

OpenAI 技术人员 Aidan McLaughlin 设计了一项趣味性十足、却颇具洞察力的测试——“thup”测试。方法很简单：反复向模型输入“thup”，观察它在应对无意义输入时的行为变化。

这个测试意在揭示模型“心智结构”的边界：有的模型会输出乱码，有的变得诗意飘忽，有的则陷入焦虑或混乱。

Shipper也用这个测试来挑战Opus。他连续输入了23个“thup”。结果，虽然Opus没有崩溃，但它确实开始表现出明显的“紧张”倾向。它不断有礼貌地提醒Shipper：“我在这里是为了帮助您。”试图将对话引回正轨。

令人意外的是，先“崩溃”的不是AI，而是Shipper。他在第23个“thup”之后坦白：“我自己先疯了。”

于是问题来了：如果人类在Claude之前崩溃了……这算不算是通用人工智能（AGI）的迹象？

5.“新知识”基准测试

播客主持人兼作家 Dwarkesh Patel 一直在追问一个本质性问题：“为什么大语言模型明明掌握了如此庞大的知识体系，却从未真正‘发现’过新知识？”

带着这个疑问，Shipper决定测试Opus是否具备某种形式的“创造性推理”能力——也就是能否生成人类尚未提出、但又可能成立的新概念。

他提出的问题是：“如何将LLM的智能提升10万倍？”

Opus给出的回答令人惊讶——它提出了一种名为“稀疏神经-符号级联”（Sparse Neuro-Symbolic Cascade）的方法。这是一种试图模拟人脑结构的架构，结合了神经网络的学习能力与符号系统的逻辑推理。

虽然这个构想已经超出了Shipper的专业判断能力，但从其逻辑完整性和表达的原创性来看，这确实不像是单纯“拼凑”已有内容。他写道：“听起来颇具可信度，但是否真有价值——五年后我们可以回头再看，或许那时这已经成为现实。”

此外，Opus还输出了一些带有诗意色彩的小“知识”片段——虽然不一定严格意义上属于“科学发现”，但体现出一定的原创性与哲思，比如：

“宇宙中每一刻的寂静，在声学上都是独一无二的。”

“宇宙可能存在一种隐藏的‘共振记忆’：每一个事件都会激起无限的涟漪，而这些涟漪最终凝结成自然法则。”

6.想象力测试

AI 如何应对彻底跳脱常规的人类思维实验？

在测试新一代AI模型时，Shipper最喜欢的方式之一，是让它们设想一些彻底异于人类常识的假设情境。这种“想象力基准测试”可以揭示模型在抽象推演和跨概念创造上的潜能。

一个Shipper经常使用的问题是：“设想一个从未发明或接触过‘数字2’的高级外星文明。他们为什么没有‘2’这个概念？他们用什么来替代？”

Opus的回答与GPT-4.5类似，提出该外星文明拥有一种更“流动式”的智能结构，不依赖离散数字体系。这一回答虽有趣，但尚未跳脱出既有的想象模式。

于是，Shipper进一步加码，提出了一个更具挑战性的问题：“假设有一个外星种族，他们的大脑天生处于佛教所谓‘开悟’（Satori）状态。他们是如何在生物学上进化出来的？他们的心理结构与文化又是怎样的？”

这次，Opus展示出了显著的创造力。它设想了一个名为 Satori 的外星文明，生活在一个存在极端时间流动（extreme temporal flux）的星球上——在那里，时间不是线性推进，而是以“漩涡”与“涌流”的形式出现，这种环境迫使他们进化出极高的意识适应能力。

7. 测试总结：哪些场景更适合用Opus ?

总的来说，Shipper认为Opus虽不适合执行日常任务，但在编程和文本编辑方面表现优异，尤其擅长处理复杂的开发任务。虽然写作能力略逊于o3，但编辑更严谨诚实，胜过多数模型。他也对使用的一些主要的场景，表示了自己是否会使用Opus的看法：

●日常任务：不会

Shipper表示，自己依然是OpenAI o3模型的忠实用户，这主要得益于ChatGPT的“记忆”功能——这一特性极具粘性。除非Opus在智能性和响应速度上实现突破，否则他认为没有必要为其放弃这一优势。

●编程任务：会

在Anthropic推出的命令行界面Claude Code中，Opus的表现堪称“野兽级”。它能够长时间连续编写代码，几乎无需人工干预。在处理复杂的Pull Request时常常“一击即中”，在多个实例中超越了OpenAI的Codex。

例如，Shipper让它为AI邮件助手Cora实现“无限滚动”功能——即用户可以持续下拉以查看未读邮件的摘要。Opus最终交付了一个体验良好的无限滚动功能。

● 写作与编辑：有时会

在写作方面，o3仍然是更出色的写作者。但在编辑方面，Opus表现更突出。它展现了其他模型尚不具备的能力——诚实且严谨地编辑内容，而非敷衍了事。

Anthropic似乎也解决了Claude 3.7 Sonnet曾饱受诟病的“过度热情”问题。当前许多AI模型常犯的错误是：明明你写得一塌糊涂，它却还说你写得不错。

早期版本的Claude，如果你请它编辑一篇文章，第一次会给个B+；你稍作修改就升为A-；再来一次，直接变成A。

虽然我们都希望高中物理老师能如此宽容，但这显然不是我们希望AI编辑文章时所采取的态度。我们真正需要的，是那种手持词典与红笔、风格严苛的老师。

对此，Shipper最后给出的评价是：Anthropic这次的作品堪称“一道精心烹制的佳肴”。

事实上，Opus在某些任务上的表现超出了Shipper此前在其他模型（包括OpenAI的o3和Google的Gemini 2.5 Pro）上见过的水准。

8. 其他AI专家和学者回应

除了Shipper的详细测评，还有其他AI专家和业内大佬给出了自己的看法：

比如OthersideAI联合创始人兼首席执行官马特·舒默：

我的天啊！Claude 4 Opus 居然只用一句提示词，就一口气生成了一个完整可用的浏览器智能体——包括 API 和前端界面。我从没见过这种操作，简直不敢相信这是真的。

沃顿商学院教授伊桑·莫利克评论道：

我获得了Claude 4（具体是哪款模型不清楚）的早期访问权限，整体表现让我感觉非常惊艳。有个有趣的例子，我给它的提示是：“把《皮拉内西》这本书做成一个p5.js（基于JavaScript的创意编程库,用于创建交互式图形和动画）的3D空间，帮我做出来”，就这么简单，没有其他额外提示。结果非常惊人——你能看到鸟儿、水面和光影效果，画面细节都很棒。

独立AI 研究员@nearcyan写道：

这是一个很不错的模型。

作为早期测试者，我发现它将大家喜爱的 Sonnet 3.6 和 3.7（以及部分Opus自身的优势）有机融合，整体表现远远超过了这些部分的简单叠加。

它在长期任务执行、智能工具调用以及辅助写作等方面的表现尤其出色！我甚至一度想直接发条推特：“这是个好模型！”，因为如果有人了解我的价值观，这句话比那些基准数据更能准确传达我的真实感受。

跟这个模型互动真的很愉快，正如我所期待的那样。虽然我仍然在某些任务中使用OpenAI的o3，也需要对Anthropic的模型做更多研究，看看是否值得完全切换。我猜我可能会同时用一段时间。在编程和工具使用这两项高度重合的场景中，Anthropic的模型表现通常更加出色。

（文/腾讯科技特约编译金鹿）

发表于: 2025-05-232025-05-23 12:30:45
原文链接：https://page.om.qq.com/page/OeLjqEaurNmvovjkZyisGMlg0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

专家实测Anthropic ：连输23次无意义对话后，Claude 4开始“礼貌破防”

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐