这一周,技术圈很安静。没有新模型刷屏,没有跑分屠榜,朋友圈也没出现那种“不学就被淘汰”的标题。
但安静底下,三家互不相干的公司——两家卖模型的,一家刚拿了 a16z 的钱——各自做了一件事。三家动机其实完全不同:一家在扩渠道,一家在调价,一家在讲融资故事。我把它们读到一起,是因为站在落地者的视角,这三件事都在朝同一个方向使劲。先说清楚:这是我的一种读法,不是它们的共识——是透镜,不是证明。
而这个方向是:钱、可靠性、落地速度,真正难的部分,都不在模型层。它们在模型之外。
这也不是我的新观点。我写过不止一次:AI 项目八成死在工程,不是死在模型。新鲜的是——这一周,连卖模型的人自己,都把话说到了这个份上。一条一条说。
6 月 14 日,OpenAI 发布了一个叫 Partner Network 的东西。
抛开公关辞令,它的实质是:OpenAI 自报投入 1.5 亿美元,目标到 2026 年底,认证 30 万名咨询顾问,把他们分成三档(Select / Advanced / Elite),专门去帮企业落地 AI。首批 founding partner,据报道包括 Accenture、BCG、McKinsey 这些给保险、银行、制造、政府做实施的大所。(这些数字是 OpenAI 的自报目标,官网原文我没能直接读到,各家报道对完整名单口径还不一致,这里只列多源都提到的几家。)
钱的数字不重要。重要的是 OpenAI 官方给这件事的定性。它说——
企业从 AI 获得价值的限制因素,已不再是模型能力;而是组织能否可复制地识别正确用例、重设工作流、与现有系统集成,并大规模推动采用与变革管理。
把这句话翻译成人话:卖模型的公司,自己花一亿五千万美元,去买“落地”这件事。
一家最有理由说“模型最重要”的公司,在公告里第一句就把模型从瓶颈的位置上拿下来了。这不是谦虚,是它看清了钱在哪儿——模型已经不稀缺,稀缺的是把模型塞进保险公司的核保流程、塞进银行的合规链路、还能让业务方真用起来的那套功夫。
那套功夫,就是我一直说的 Harness——模型之外的全部工程。
第二件事更微妙,我得把它讲准,因为它本身就是一个关于“别急着下结论”的案例。
5 月中,Anthropic 提出一个计费改动:把 Agent SDK、claude -p、Claude Code GitHub Actions 这类自动化调用,从订阅额度池里剥离出去,改成按标准 API 单独计量;而你手动敲命令的那种交互式用法,不受影响。原定 6 月 15 日生效。
很多人(包括我自己最初那条信号笔记)把它记成了“6 月 15 日正式生效”。
这是错的,我先认。真实情况是:6 月 15 日当天,Anthropic 把这个改动暂停了,说要重做方案,没给新的生效日期;到今天,订阅额度照旧。(来源:The New Stack、The Decoder、DevOps.com,口径一致。)
所以这不是一个“成本炸了”的故事。但它也不是一个“虚惊一场、可以忘掉”的故事。
我的判断:刀被收回去了,但刀已经亮过了。
我得说清这是推测,不是定论。撤回的官方理由是“重做方案”,也完全可以解读成“用户压力有效、订阅价还能撑”。但在我看来,一家公司认真设计出一套“把自动化负载单独计价”的方案、走到生效当天才撤,至少说明它内部严肃评估过这条路——这条路对它有吸引力。趋势上,我倾向于认为:模型公司不会长期用订阅价,补贴你那些 7×24 跑的生产级 Agent。这次退回,可能只是引线被拆回去一截。你可以不同意这个判断,但不该假设它不会再来。
这件事对在受监管行业做 AI 的人,意味着什么?
想想你手里那些自动化 pipeline:每天定时巡查理赔单、批量抽取病历字段、跑合规扫描。今天它们还在订阅额度里跑,看着像固定成本。但只要计价方式迟早要变——而它已经亮过一次了——那么 prompt cache 命中率、context 压缩、模型降级路由这些东西,就不再是“有空再优化的工程改进”,而是迟早要还的账。
反常识一:别被“暂停”骗第二次。任何认真的 POC,本来就该按 API 真实定价去建 ROI 模型,而不是按订阅价摊销。用订阅价算出来的漂亮成本数字去说服甲方,是个定时炸弹——这次只是没炸,不是拆了。
6 月 16 日,TechCrunch 报道,一家叫 Probably 的公司拿了 900 万美元种子轮,a16z 领投。
它做的事和前两个信号是同一个方向,只是从可靠性这个角度切进来。创始人把自己的架构叫“数据科学机甲”:LLM 先出一个初步答案,然后交给一个确定性校验器,去和真实数据集比对——对不上,就打回重算。它跑的不是最强模型,是创始人自己说的“比前沿模型弱四个量级”的小模型,可以在本地桌面硬件上跑,每条输出都带引用和审计轨迹。(以上是创始人和 TechCrunch 的口径,不是第三方验证过的技术事实。)
最妙的是创始人自己那句原话——“你的 harness engineering 做得越好,模型就可以越弱”。他用的就是 harness 这个词。一个刚拿到 a16z 钱的创业者,把公司押注的方向,直接说成了“模型之外的工程”。这话我替自己说了一年,这次是一个用真金白银下注的人替我说了一遍。
在保险理赔、金融合规、政务 RPA 这些场景里,有两条绕不过去的硬需求:输出得可溯源(合规要审计),成本得可控。这套架构两条都对准了——审计轨迹满足合规,本地小模型压住成本。
但这个信号里最值得琢磨的,不是架构,是一个数字的措辞。
它对外说的可靠性目标是 99.99%。注意,是目标——创始人的原话是“逼近确定性系统里常见的那种 99.99% 精度”,是想达到,不是已达到,更没有第三方验证。
反常识二:一家专门主打可靠性、刚拿了 a16z 钱的公司,都只敢把 99.99% 写成目标。那些跟你说“上了某某大模型就能可靠”的人,凭什么把它说成现成的?可靠性从来不是换个更强的模型就能买到的——它是你在模型外面,用校验器、用审计链、用打回重算的回路,一点点工程出来的。

把这一周的三件事并排放:OpenAI 从渠道、Anthropic 从成本、Probably 从可靠性——三家公司,互相没关系,被我读出了同一句话:真正难的、值钱的、决定成败的事,都在模型之外。
我知道有两种反驳,先替你说出来。
一种是:“这不就是大厂成熟期的常规操作吗?建渠道、调价、讲融资故事,跟瓶颈在不在模型有什么关系。”——对,它们确实都是商业动作。但恰恰是商业动作最诚实。公司会在嘴上骗你,但不会拿一亿五千万美元的预算骗自己。钱往哪儿流,比公告里写什么更能说明它们认为价值在哪儿——而这一周,钱在往“落地”流,不在往“更强的模型”流。
另一种反驳更硬:“OpenAI 说瓶颈不在模型,恰恰是因为它的模型已经够强了——是模型的进步,才把瓶颈推到了落地层。”——这话我完全同意,而且它不反对我,它支持我。模型确实是地基,而且地基已经够好了。正因为地基够好且越来越同质化,你的竞争力就不在你站在哪块地基上,而在你地基之上盖了什么。你今天选 A 模型,明年换 B,业务照样跑;真正换不掉的,是你围着模型搭起来的那一圈东西——数据怎么进、结果怎么验、成本怎么算、流程怎么改、出了事怎么追责。
这一圈东西,就是模型之外的事。

如果你在保险、银行、政务里做 AI 决策,我建议你把平时问的问题换掉。别再问“我该上哪个模型”,换成这三个:
这三个问题,没有一个的答案在模型的参数量里。
一、别从“瓶颈不在模型”滑到“不用懂模型”。这是两回事。恰恰因为你要在模型外面搭校验、控成本、做降级路由,你才更得吃透每个模型的脾气——它在哪类任务上会胡说、tokenizer 怎么切中文、什么时候该换小模型。围着模型盖房子的人,比追新模型的人更需要懂模型,只是懂的方式不同。
二、这一周的信号都还热,别当成定论。OpenAI 的数字是自报目标,Anthropic 的方案被撤回了、可能改头换面再来,Probably 的架构还没有第三方验证。我把它们并排看,是因为方向一致,不是因为每个细节都已经板上钉钉。判断方向,别急着引用数字。
三、Harness 这个叙事,正在变成主流。三天前还是少数人的判断,现在 OpenAI 写进官方公告了。这是好事,也是提醒——当一个判断变成共识,差异化窗口就开始关。对我们做垂直行业的人,接下来要往更深的地方走:不是泛泛地讲“工程比模型重要”,而是讲清楚保险理赔这个具体场景里,那一圈东西到底该怎么搭。
打开你手上正在做、或者正打算立项的那个 AI 项目方案。
翻到讲技术选型的那一页,看看它花了多少篇幅在比模型、比跑分、比参数——再看看它花了多少篇幅在讲数据怎么进、结果怎么验、成本怎么按真实单价算、出了事怎么追责。
如果前者明显比后者多,这一页就得重写。因为这一周,三个信号已经告诉你,你把重点押错了地方。