Claude最近完成了一次架构层面的重大升级,这个改变可能比推理模型更具颠覆性。
核心变化很简单:以前是用户提问Claude回复调用工具Claude再回复。现在是用户提问Claude编写代码代码调用工具、处理结果、执行条件逻辑、多次调用工具最后返回Claude。
这个转变的威力在于,Claude不再像个健忘的助手,每次调用工具都要回来汇报。它会直接写一段代码,预先规划好各种可能的决策路径,让代码自主处理工具调用的结果。
以数据库查询为例。过去Claude需要查询一次,读取结果,思考下一步,再查询。现在它写的代码可以自己处理首次查询结果,决定是否继续查询,如何格式化数据,如何应对不同情况,完全不需要每一步都回到LLM做决策。
这相当于把几十上百次的对话循环压缩成一次代码执行。Agent不再是走一步看一步,而是预先烘焙好可能的决策树。有人在测试中看到工具调用准确率从50%跃升到96%,延迟和成本大幅下降。
更重要的发现是:中间结果不再进入上下文窗口。处理百万token级别的文件时,只有最终输出会占用上下文预算。这解决了大规模网页抓取的老大难问题——你不需要把整个HTML文件塞进上下文,让代码在沙盒里处理就好。
并行工具执行是另一个关键突破。串行调用不只是慢,模型还会在步骤之间丢失上下文。并行改变的是推理模式本身,不只是速度。
当然,这种模式也有代价。预先规划的代码在遇到意外情况时会显得僵硬。过度规划和规划不足一样浪费。传统的“慢循环”虽然效率低,但更具适应性。具体收益取决于任务类型,并非在所有场景下都能实现2到100倍的性能提升。
有趣的是,这个特性其实几个月前就在Anthropic的工程博客发布了,只是大多数人没注意到。现在它已经从Opus 4.5下放到Sonnet,开发者只需启用一个标志就能使用。
AI写代码的能力每提升一分,就为性能扩展开辟了新的维度。当代理可以独自运行两小时而不需要人类干预,当它能在不破坏上下文的情况下搜索整个网络,会话内学习就没有了真正的上限。
这不是噱头,是成熟的Agent架构模式的原生化实现。那些已经在手动实现这种模式的开发者现在可以直接用原生支持了。洁简的系统总是看起来无趣,直到它们开始输出结果。
x.com/NickADobos/status/2023861257757925469