模型之外的事——这一周，三个信号不约而同

用户10097875

发布于 2026-06-29 12:28:37

550

这一周，技术圈很安静。没有新模型刷屏，没有跑分屠榜，朋友圈也没出现那种“不学就被淘汰”的标题。

但安静底下，三家互不相干的公司——两家卖模型的，一家刚拿了 a16z 的钱——各自做了一件事。三家动机其实完全不同：一家在扩渠道，一家在调价，一家在讲融资故事。我把它们读到一起，是因为站在落地者的视角，这三件事都在朝同一个方向使劲。先说清楚：这是我的一种读法，不是它们的共识——是透镜，不是证明。

而这个方向是：钱、可靠性、落地速度，真正难的部分，都不在模型层。它们在模型之外。

这也不是我的新观点。我写过不止一次：AI 项目八成死在工程，不是死在模型。新鲜的是——这一周，连卖模型的人自己，都把话说到了这个份上。一条一条说。

一、第一个信号：卖模型的人，亲口说模型不是瓶颈

6 月 14 日，OpenAI 发布了一个叫 Partner Network 的东西。

抛开公关辞令，它的实质是：OpenAI 自报投入 1.5 亿美元，目标到 2026 年底，认证 30 万名咨询顾问，把他们分成三档（Select / Advanced / Elite），专门去帮企业落地 AI。首批 founding partner，据报道包括 Accenture、BCG、McKinsey 这些给保险、银行、制造、政府做实施的大所。（这些数字是 OpenAI 的自报目标，官网原文我没能直接读到，各家报道对完整名单口径还不一致，这里只列多源都提到的几家。）

钱的数字不重要。重要的是 OpenAI 官方给这件事的定性。它说——

企业从 AI 获得价值的限制因素，已不再是模型能力；而是组织能否可复制地识别正确用例、重设工作流、与现有系统集成，并大规模推动采用与变革管理。

把这句话翻译成人话：卖模型的公司，自己花一亿五千万美元，去买“落地”这件事。

一家最有理由说“模型最重要”的公司，在公告里第一句就把模型从瓶颈的位置上拿下来了。这不是谦虚，是它看清了钱在哪儿——模型已经不稀缺，稀缺的是把模型塞进保险公司的核保流程、塞进银行的合规链路、还能让业务方真用起来的那套功夫。

那套功夫，就是我一直说的 Harness——模型之外的全部工程。

二、第二个信号：一刀亮出来，又收了回去

第二件事更微妙，我得把它讲准，因为它本身就是一个关于“别急着下结论”的案例。

5 月中，Anthropic 提出一个计费改动：把 Agent SDK、claude -p、Claude Code GitHub Actions 这类自动化调用，从订阅额度池里剥离出去，改成按标准 API 单独计量；而你手动敲命令的那种交互式用法，不受影响。原定 6 月 15 日生效。

很多人（包括我自己最初那条信号笔记）把它记成了“6 月 15 日正式生效”。

这是错的，我先认。真实情况是：6 月 15 日当天，Anthropic 把这个改动暂停了，说要重做方案，没给新的生效日期；到今天，订阅额度照旧。（来源：The New Stack、The Decoder、DevOps.com，口径一致。）

所以这不是一个“成本炸了”的故事。但它也不是一个“虚惊一场、可以忘掉”的故事。

我的判断：刀被收回去了，但刀已经亮过了。

我得说清这是推测，不是定论。撤回的官方理由是“重做方案”，也完全可以解读成“用户压力有效、订阅价还能撑”。但在我看来，一家公司认真设计出一套“把自动化负载单独计价”的方案、走到生效当天才撤，至少说明它内部严肃评估过这条路——这条路对它有吸引力。趋势上，我倾向于认为：模型公司不会长期用订阅价，补贴你那些 7×24 跑的生产级 Agent。这次退回，可能只是引线被拆回去一截。你可以不同意这个判断，但不该假设它不会再来。

这件事对在受监管行业做 AI 的人，意味着什么？

想想你手里那些自动化 pipeline：每天定时巡查理赔单、批量抽取病历字段、跑合规扫描。今天它们还在订阅额度里跑，看着像固定成本。但只要计价方式迟早要变——而它已经亮过一次了——那么 prompt cache 命中率、context 压缩、模型降级路由这些东西，就不再是“有空再优化的工程改进”，而是迟早要还的账。

反常识一：别被“暂停”骗第二次。任何认真的 POC，本来就该按 API 真实定价去建 ROI 模型，而不是按订阅价摊销。用订阅价算出来的漂亮成本数字去说服甲方，是个定时炸弹——这次只是没炸，不是拆了。

三、第三个信号：连主打可靠性的公司，都只敢把 99.99% 当目标

6 月 16 日，TechCrunch 报道，一家叫 Probably 的公司拿了 900 万美元种子轮，a16z 领投。

它做的事和前两个信号是同一个方向，只是从可靠性这个角度切进来。创始人把自己的架构叫“数据科学机甲”：LLM 先出一个初步答案，然后交给一个确定性校验器，去和真实数据集比对——对不上，就打回重算。它跑的不是最强模型，是创始人自己说的“比前沿模型弱四个量级”的小模型，可以在本地桌面硬件上跑，每条输出都带引用和审计轨迹。（以上是创始人和 TechCrunch 的口径，不是第三方验证过的技术事实。）

最妙的是创始人自己那句原话——“你的 harness engineering 做得越好，模型就可以越弱”。他用的就是 harness 这个词。一个刚拿到 a16z 钱的创业者，把公司押注的方向，直接说成了“模型之外的工程”。这话我替自己说了一年，这次是一个用真金白银下注的人替我说了一遍。

在保险理赔、金融合规、政务 RPA 这些场景里，有两条绕不过去的硬需求：输出得可溯源（合规要审计），成本得可控。这套架构两条都对准了——审计轨迹满足合规，本地小模型压住成本。

但这个信号里最值得琢磨的，不是架构，是一个数字的措辞。

它对外说的可靠性目标是 99.99%。注意，是目标——创始人的原话是“逼近确定性系统里常见的那种 99.99% 精度”，是想达到，不是已达到，更没有第三方验证。

反常识二：一家专门主打可靠性、刚拿了 a16z 钱的公司，都只敢把 99.99% 写成目标。那些跟你说“上了某某大模型就能可靠”的人，凭什么把它说成现成的？可靠性从来不是换个更强的模型就能买到的——它是你在模型外面，用校验器、用审计链、用打回重算的回路，一点点工程出来的。

四、三条线，汇到同一个点

把这一周的三件事并排放：OpenAI 从渠道、Anthropic 从成本、Probably 从可靠性——三家公司，互相没关系，被我读出了同一句话：真正难的、值钱的、决定成败的事，都在模型之外。

我知道有两种反驳，先替你说出来。

一种是：“这不就是大厂成熟期的常规操作吗？建渠道、调价、讲融资故事，跟瓶颈在不在模型有什么关系。”——对，它们确实都是商业动作。但恰恰是商业动作最诚实。公司会在嘴上骗你，但不会拿一亿五千万美元的预算骗自己。钱往哪儿流，比公告里写什么更能说明它们认为价值在哪儿——而这一周，钱在往“落地”流，不在往“更强的模型”流。

另一种反驳更硬：“OpenAI 说瓶颈不在模型，恰恰是因为它的模型已经够强了——是模型的进步，才把瓶颈推到了落地层。”——这话我完全同意，而且它不反对我，它支持我。模型确实是地基，而且地基已经够好了。正因为地基够好且越来越同质化，你的竞争力就不在你站在哪块地基上，而在你地基之上盖了什么。你今天选 A 模型，明年换 B，业务照样跑；真正换不掉的，是你围着模型搭起来的那一圈东西——数据怎么进、结果怎么验、成本怎么算、流程怎么改、出了事怎么追责。

这一圈东西，就是模型之外的事。

五、所以，该换三个问题

如果你在保险、银行、政务里做 AI 决策，我建议你把平时问的问题换掉。别再问“我该上哪个模型”，换成这三个：

渠道：这个 AI 项目的实施权，握在我自己手里，还是外包给了某家认证顾问？（对应信号一——当外部认证顾问比你内部的 AI 工程师还多，选型的主导权就不在你这边了。）
成本：我给甲方算的 ROI，是按 API 真实单价算的，还是按订阅价的幻觉算的？（对应信号二——那张账迟早要还。）
可靠性：我的可靠性，是靠“等下一代更强的模型”，还是靠我架构里那一层确定性校验？（对应信号三——连 Probably 都只敢把 99.99% 当目标。）

这三个问题，没有一个的答案在模型的参数量里。

六、几个冷静的提醒

一、别从“瓶颈不在模型”滑到“不用懂模型”。这是两回事。恰恰因为你要在模型外面搭校验、控成本、做降级路由，你才更得吃透每个模型的脾气——它在哪类任务上会胡说、tokenizer 怎么切中文、什么时候该换小模型。围着模型盖房子的人，比追新模型的人更需要懂模型，只是懂的方式不同。

二、这一周的信号都还热，别当成定论。OpenAI 的数字是自报目标，Anthropic 的方案被撤回了、可能改头换面再来，Probably 的架构还没有第三方验证。我把它们并排看，是因为方向一致，不是因为每个细节都已经板上钉钉。判断方向，别急着引用数字。

三、Harness 这个叙事，正在变成主流。三天前还是少数人的判断，现在 OpenAI 写进官方公告了。这是好事，也是提醒——当一个判断变成共识，差异化窗口就开始关。对我们做垂直行业的人，接下来要往更深的地方走：不是泛泛地讲“工程比模型重要”，而是讲清楚保险理赔这个具体场景里，那一圈东西到底该怎么搭。