Anthropic又出招了,在Claude平台上实装了一套军师策略,主要目标降低成本和提高次级模型智商。最近很多网友反应claude 降智了,A厂现在的顶尖模型的token使用很明显就是偏向to B和内部迭代,越来越对C端不友好了,不知道A厂内部是不是很早就在偷用这个军师策略
简单来说,就是让最强大的Opus模型在后台当军师,让轻量级的Sonnet或者Haiku模型去当执行者。通过这种搭配,开发者可以用极低的成本,让自己的智能体瞬间获得接近Opus级别的顶级智商。
过去很多开发者为了平衡AI的智力和使用成本,自己摸索出了这种大小模型打配合的套路。今天,Anthropic官方直接把这个经验变成了Claude平台上的一个现成工具,只需要在API调用里改一行代码就能实现。
这个策略的运作机制非常巧妙。
在军师策略下,Sonnet或Haiku会作为执行者负责包揽全场。它们从头到尾运行任务,调用各种工具,读取结果,并不断尝试解决问题。但是,当执行者遇到难度极高的关键决策,觉得自己搞不定时,它就会呼叫Opus这位军师来寻求指导。
接到呼叫后,Opus会读取双方共享的上下文信息,然后给出一个明确的计划,一个纠错建议,或者直接给出一个停止信号,随后执行者拿到建议继续干活。在这个过程中,军师绝对不会亲自去调用任何工具,也不会直接生成给用户看的最终内容,它的职责仅仅是给执行者提供高层指导。
这种玩法直接反转了业界目前最常用的子智能体模式。以前大家习惯用一个超大模型做统筹节点,把任务拆解后分发给底下的工人小模型去干。而在军师策略里,一个小巧且极其省钱的模型承担了主导和向上汇报的工作,完全不需要复杂的任务拆解逻辑和庞大的工人池。最顶尖的推理算力好钢全用在了刀刃上,只有在执行者真正卡壳时才介入,剩下的绝大部分运行时间都维持在极低的成本线上。
实测数据证明了这套方案的强大。
在SWE benchmark Multilingual这套测试集中,带上Opus军师的Sonnet执行者,最终得分比单打独斗的Sonnet高出了2.7个百分点,而每个任务的平均成本居然还降低了11.9%。
在BrowseComp和Terminal benchmark 2.0这两项基准测试中,有Opus当军师的Sonnet不仅得分全面提升,花费同样比单独使用Sonnet时还要少。
如果把执行者换成尺寸最小的Haiku模型,效果更加立竿见影。在BrowseComp测试中,带上军师的Haiku拿到了41.2%的高分,这比它自己单干时19.7%的成绩翻了一倍还要多。虽然这个组合的最终得分比单用Sonnet落后29%,但它的单次任务成本足足下降了85%。引入军师确实会让Haiku增加一点开销,但整体算下来依然只是单跑Sonnet的一小部分零头。对于那些既需要一定智商又面临海量高并发需求的应用场景来说,这是一个极具杀伤力的性价比选项。
现在,这个军师工具已经在Claude平台上开启Beta测试。
开发者只要在Messages API请求中声明advisor 20260301,模型的交接工作就会在同一个API请求内全部自动完成。不需要任何额外的网络往返通信,也不用开发者手动去管理复杂的上下文。
执行者模型会自己判断什么时候该请军师出山。一旦触发,系统会在后台自动把整理好的上下文发给军师,获取计划后执行者无缝衔接继续推进,整个过程行云流水。
核心代码的配置非常简单:
response = client.messages.create(
model=claude-sonnet-4-6,
tools=[
{
type: advisor_20260301,
name: advisor,
model: claude-opus-4-6,
max_uses: 3,
},
],
messages=[...]
)
计费方式也算得非常清楚。军师消耗的Token按军师的超大杯费率算,执行者消耗的Token按轻量级的费率算。因为军师通常只会吐出一份包含400到700个Token的简短指导计划,而耗费大量Token的最终长文本全交给价格低廉的执行者搞定,所以总体成本被死死压在了全量跑大模型之下。
不仅如此,官方还内置了成本控制功能。你可以通过设置max_uses参数来限制每次请求中呼叫军师的次数上限。系统也会在使用情况明细里把军师消耗的Token单独列出来,方便你追踪每一块钱的去向。
这个新工具和你现有的技术栈完全兼容。军师工具本质上只是你API请求列表里的一个新增条目而已。你的智能体完全可以一边在网上搜索资料,一边敲代码测试,遇到死胡同时顺手向Opus请教一下,所有动作都在同一个循环里完美闭环。
想要立即上手体验体验,只需按照以下三个步骤操作即可:
首先在请求头中加上Beta版特性声明:anthropic-beta: advisor-tool-2026-03-01
接着在你的Messages API请求里添加advisor_20260301
最后根据你具体的业务场景调整一下系统提示词
Anthropic官方强烈建议开发者现在就用自己的评估数据集跑一下对比测试,分别看看单跑Sonnet,采用军师策略组合,以及单跑Opus的具体效果差异。
source :
https://claude.com/blog/the-advisor-strategy
--end--
最后记得⭐️我,每天都在更新:如果觉得文章还不错的话可以点赞转发推荐评论
/...@作者:你说的完全正确(YAR师)