首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >模型之外的事——这一周,三个信号不约而同

模型之外的事——这一周,三个信号不约而同

作者头像
用户10097875
发布2026-06-29 12:28:37
发布2026-06-29 12:28:37
550
举报

这一周,技术圈很安静。没有新模型刷屏,没有跑分屠榜,朋友圈也没出现那种“不学就被淘汰”的标题。

但安静底下,三家互不相干的公司——两家卖模型的,一家刚拿了 a16z 的钱——各自做了一件事。三家动机其实完全不同:一家在扩渠道,一家在调价,一家在讲融资故事。我把它们读到一起,是因为站在落地者的视角,这三件事都在朝同一个方向使劲。先说清楚:这是我的一种读法,不是它们的共识——是透镜,不是证明。

而这个方向是:钱、可靠性、落地速度,真正难的部分,都不在模型层。它们在模型之外。

这也不是我的新观点。我写过不止一次:AI 项目八成死在工程,不是死在模型。新鲜的是——这一周,连卖模型的人自己,都把话说到了这个份上。一条一条说。

一、第一个信号:卖模型的人,亲口说模型不是瓶颈

6 月 14 日,OpenAI 发布了一个叫 Partner Network 的东西。

抛开公关辞令,它的实质是:OpenAI 自报投入 1.5 亿美元,目标到 2026 年底,认证 30 万名咨询顾问,把他们分成三档(Select / Advanced / Elite),专门去帮企业落地 AI。首批 founding partner,据报道包括 Accenture、BCG、McKinsey 这些给保险、银行、制造、政府做实施的大所。(这些数字是 OpenAI 的自报目标,官网原文我没能直接读到,各家报道对完整名单口径还不一致,这里只列多源都提到的几家。)

钱的数字不重要。重要的是 OpenAI 官方给这件事的定性。它说——

企业从 AI 获得价值的限制因素,已不再是模型能力;而是组织能否可复制地识别正确用例、重设工作流、与现有系统集成,并大规模推动采用与变革管理。

把这句话翻译成人话:卖模型的公司,自己花一亿五千万美元,去买“落地”这件事。

一家最有理由说“模型最重要”的公司,在公告里第一句就把模型从瓶颈的位置上拿下来了。这不是谦虚,是它看清了钱在哪儿——模型已经不稀缺,稀缺的是把模型塞进保险公司的核保流程、塞进银行的合规链路、还能让业务方真用起来的那套功夫。

那套功夫,就是我一直说的 Harness——模型之外的全部工程。

二、第二个信号:一刀亮出来,又收了回去

第二件事更微妙,我得把它讲准,因为它本身就是一个关于“别急着下结论”的案例。

5 月中,Anthropic 提出一个计费改动:把 Agent SDK、claude -p、Claude Code GitHub Actions 这类自动化调用,从订阅额度池里剥离出去,改成按标准 API 单独计量;而你手动敲命令的那种交互式用法,不受影响。原定 6 月 15 日生效。

很多人(包括我自己最初那条信号笔记)把它记成了“6 月 15 日正式生效”。

这是错的,我先认。真实情况是:6 月 15 日当天,Anthropic 把这个改动暂停了,说要重做方案,没给新的生效日期;到今天,订阅额度照旧。(来源:The New Stack、The Decoder、DevOps.com,口径一致。)

所以这不是一个“成本炸了”的故事。但它也不是一个“虚惊一场、可以忘掉”的故事。

我的判断:刀被收回去了,但刀已经亮过了。

我得说清这是推测,不是定论。撤回的官方理由是“重做方案”,也完全可以解读成“用户压力有效、订阅价还能撑”。但在我看来,一家公司认真设计出一套“把自动化负载单独计价”的方案、走到生效当天才撤,至少说明它内部严肃评估过这条路——这条路对它有吸引力。趋势上,我倾向于认为:模型公司不会长期用订阅价,补贴你那些 7×24 跑的生产级 Agent。这次退回,可能只是引线被拆回去一截。你可以不同意这个判断,但不该假设它不会再来。

这件事对在受监管行业做 AI 的人,意味着什么?

想想你手里那些自动化 pipeline:每天定时巡查理赔单、批量抽取病历字段、跑合规扫描。今天它们还在订阅额度里跑,看着像固定成本。但只要计价方式迟早要变——而它已经亮过一次了——那么 prompt cache 命中率、context 压缩、模型降级路由这些东西,就不再是“有空再优化的工程改进”,而是迟早要还的账。

反常识一:别被“暂停”骗第二次。任何认真的 POC,本来就该按 API 真实定价去建 ROI 模型,而不是按订阅价摊销。用订阅价算出来的漂亮成本数字去说服甲方,是个定时炸弹——这次只是没炸,不是拆了。

三、第三个信号:连主打可靠性的公司,都只敢把 99.99% 当目标

6 月 16 日,TechCrunch 报道,一家叫 Probably 的公司拿了 900 万美元种子轮,a16z 领投。

它做的事和前两个信号是同一个方向,只是从可靠性这个角度切进来。创始人把自己的架构叫“数据科学机甲”:LLM 先出一个初步答案,然后交给一个确定性校验器,去和真实数据集比对——对不上,就打回重算。它跑的不是最强模型,是创始人自己说的“比前沿模型弱四个量级”的小模型,可以在本地桌面硬件上跑,每条输出都带引用和审计轨迹。(以上是创始人和 TechCrunch 的口径,不是第三方验证过的技术事实。)

最妙的是创始人自己那句原话——“你的 harness engineering 做得越好,模型就可以越弱”。他用的就是 harness 这个词。一个刚拿到 a16z 钱的创业者,把公司押注的方向,直接说成了“模型之外的工程”。这话我替自己说了一年,这次是一个用真金白银下注的人替我说了一遍。

在保险理赔、金融合规、政务 RPA 这些场景里,有两条绕不过去的硬需求:输出得可溯源(合规要审计),成本得可控。这套架构两条都对准了——审计轨迹满足合规,本地小模型压住成本。

但这个信号里最值得琢磨的,不是架构,是一个数字的措辞。

它对外说的可靠性目标是 99.99%。注意,是目标——创始人的原话是“逼近确定性系统里常见的那种 99.99% 精度”,是想达到,不是已达到,更没有第三方验证。

反常识二:一家专门主打可靠性、刚拿了 a16z 钱的公司,都只敢把 99.99% 写成目标。那些跟你说“上了某某大模型就能可靠”的人,凭什么把它说成现成的?可靠性从来不是换个更强的模型就能买到的——它是你在模型外面,用校验器、用审计链、用打回重算的回路,一点点工程出来的。

四、三条线,汇到同一个点

本周三信号时间线:渠道·成本·可靠性都指向模型之外
本周三信号时间线:渠道·成本·可靠性都指向模型之外

把这一周的三件事并排放:OpenAI 从渠道、Anthropic 从成本、Probably 从可靠性——三家公司,互相没关系,被我读出了同一句话:真正难的、值钱的、决定成败的事,都在模型之外。

我知道有两种反驳,先替你说出来。

一种是:“这不就是大厂成熟期的常规操作吗?建渠道、调价、讲融资故事,跟瓶颈在不在模型有什么关系。”——对,它们确实都是商业动作。但恰恰是商业动作最诚实。公司会在嘴上骗你,但不会拿一亿五千万美元的预算骗自己。钱往哪儿流,比公告里写什么更能说明它们认为价值在哪儿——而这一周,钱在往“落地”流,不在往“更强的模型”流。

另一种反驳更硬:“OpenAI 说瓶颈不在模型,恰恰是因为它的模型已经够强了——是模型的进步,才把瓶颈推到了落地层。”——这话我完全同意,而且它不反对我,它支持我。模型确实是地基,而且地基已经够好了。正因为地基够好且越来越同质化,你的竞争力就不在你站在哪块地基上,而在你地基之上盖了什么。你今天选 A 模型,明年换 B,业务照样跑;真正换不掉的,是你围着模型搭起来的那一圈东西——数据怎么进、结果怎么验、成本怎么算、流程怎么改、出了事怎么追责。

这一圈东西,就是模型之外的事。

五、所以,该换三个问题

别问该上哪个模型,换成渠道·成本·可靠性三个问题
别问该上哪个模型,换成渠道·成本·可靠性三个问题

如果你在保险、银行、政务里做 AI 决策,我建议你把平时问的问题换掉。别再问“我该上哪个模型”,换成这三个:

  • 渠道:这个 AI 项目的实施权,握在我自己手里,还是外包给了某家认证顾问?(对应信号一——当外部认证顾问比你内部的 AI 工程师还多,选型的主导权就不在你这边了。)
  • 成本:我给甲方算的 ROI,是按 API 真实单价算的,还是按订阅价的幻觉算的?(对应信号二——那张账迟早要还。)
  • 可靠性:我的可靠性,是靠“等下一代更强的模型”,还是靠我架构里那一层确定性校验?(对应信号三——连 Probably 都只敢把 99.99% 当目标。)

这三个问题,没有一个的答案在模型的参数量里。

六、几个冷静的提醒

一、别从“瓶颈不在模型”滑到“不用懂模型”。这是两回事。恰恰因为你要在模型外面搭校验、控成本、做降级路由,你才更得吃透每个模型的脾气——它在哪类任务上会胡说、tokenizer 怎么切中文、什么时候该换小模型。围着模型盖房子的人,比追新模型的人更需要懂模型,只是懂的方式不同。

二、这一周的信号都还热,别当成定论。OpenAI 的数字是自报目标,Anthropic 的方案被撤回了、可能改头换面再来,Probably 的架构还没有第三方验证。我把它们并排看,是因为方向一致,不是因为每个细节都已经板上钉钉。判断方向,别急着引用数字。

三、Harness 这个叙事,正在变成主流。三天前还是少数人的判断,现在 OpenAI 写进官方公告了。这是好事,也是提醒——当一个判断变成共识,差异化窗口就开始关。对我们做垂直行业的人,接下来要往更深的地方走:不是泛泛地讲“工程比模型重要”,而是讲清楚保险理赔这个具体场景里,那一圈东西到底该怎么搭。

今天就做的一件事

打开你手上正在做、或者正打算立项的那个 AI 项目方案。

翻到讲技术选型的那一页,看看它花了多少篇幅在比模型、比跑分、比参数——再看看它花了多少篇幅在讲数据怎么进、结果怎么验、成本怎么按真实单价算、出了事怎么追责。

如果前者明显比后者多,这一页就得重写。因为这一周,三个信号已经告诉你,你把重点押错了地方。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-06-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 模型之外的事 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、第一个信号:卖模型的人,亲口说模型不是瓶颈
  • 二、第二个信号:一刀亮出来,又收了回去
  • 三、第三个信号:连主打可靠性的公司,都只敢把 99.99% 当目标
  • 四、三条线,汇到同一个点
  • 五、所以,该换三个问题
  • 六、几个冷静的提醒
  • 今天就做的一件事
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档