首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >月烧33亿之后,Token管理不该是事后补课

月烧33亿之后,Token管理不该是事后补课

原创
作者头像
用户12501872
发布2026-06-02 13:54:24
发布2026-06-02 13:54:24
870
举报

一、失控的Token账单

今年最让科技圈瞠目结舌的一条消息,不是哪家公司发布了新模型,而是一份账单。

某家企业单月支付给Anthropic的Claude使用费用,折合人民币超过33亿元。

消息在X平台引发超过2000万次围观,所有人都在找:这家公司是谁?

没人找到答案,但这个问题本身,已经说明了一切——在AI大规模进入企业之后,Token消耗正在变成一个大多数公司根本看不见、也管不住的黑洞。

这家公司的遭遇,是极端案例,但绝不是孤例。

微软,此前给数千名工程师大规模开放Claude Code的使用权限,鼓励用AI提效。结果成本持续攀升,产出与预期脱节,公司不得不批量取消内部许可证。

Uber,2026年前四个月,已经用完了全年的AI Token预算。COO在采访中直接表态:Token消耗量的增加,和公司实际产出提升之间,尚未建立明确联系。钱在烧,价值却对不上。

Amazon,设定了"超过80%开发者每周使用AI"的内部目标,并追踪使用数据。员工的反应是什么?用内部平台执行无意义任务,刷Token数字。古德哈特定律在AI时代完成了一次精准复现:当一个指标变成目标,它就失去了衡量意义。

Meta,内部出现了AI使用排行榜,把员工分成"AI builders",排名公开可见。排行榜相关消息曝光后,公司随即将排行榜下线,不再言语。

Salesforce,CEO Marc Benioff预计公司年度Anthropic账单将达3亿美元,同时开始寻找"smart router",期望系统自动判断哪些问题用强模型、哪些用便宜小模型——本质是在亡羊补牢:先让AI跑起来,再想怎么控成本。

这些企业,没有一家是AI技术上的生手。但它们共同踩进了同一个坑:把AI接入了,没把AI管住。

Token,是AI系统运行的燃料。一次对话、一次代码生成、一次文档处理,都在消耗Token。当AI使用规模从十人扩展到百人、千人,Token消耗就从可预期的支出,变成了难以感知的黑洞。

Modal联合创始人兼CTO Akshat Bubna曾公开表示,他怀疑内部Token支出中,完全无效的比例约为50%

50%。

这不是某家公司的个案数字。这是AI粗放使用的普遍代价。

会用AI赚钱的公司没几家,用AI烧钱的一抓一大把。月烧33亿的那家公司,只是最先把这个问题暴露在聚光灯下。

二、Token管理的三个核心矛盾

当一家企业的AI使用进入规模化阶段,三个问题几乎同时浮现。

接入碎片化。不同团队在不同项目中接入不同模型,接口标准各异,重复适配成本高。"多入口、多接口、多管理"的状态,让技术维护越来越重。

消耗不可见。各团队分别管理各自的账户和调用,Token消耗缺乏统一统计。大量资源在系统中持续被消耗,却没人说得清消耗在哪、产生了多少价值。这就是"Token黑洞"的形成路径。

调用不稳定。部分模型服务存在限流、降智或能力波动,一旦某个节点出问题,直接影响研发效率和业务连续性,甚至导致关键业务中断。

这三个问题,指向同一个判断:企业需要一套统一的Token管理与治理体系。它不是"要不要"的问题,而是"什么时候建"的问题。

三、一个合格的Token管理平台需要什么

如果把这些企业的教训当成需求清单,一个Token管理平台至少需要覆盖五个能力维度。目前国内已有厂商在这个方向上做了探索,以智能永信旗下的「春秋元泉」Token统一管控平台为例,可以看到这类产品的基本逻辑。

统一接入,降低对接成本。

将主流大模型能力进行标准化整合,团队完成一次接入后,通过统一API接口即可调用不同模型服务。对于同时使用多个模型的团队,这一点尤其关键——不用每接入一个模型就做一次适配开发,接入复杂度和维护成本大幅降低。

智能调度,保证业务连续性。

多通道冗余架构与智能故障切换,是Token管理平台的基础能力。当某个模型服务出现限流、波动或中断,系统需要能在毫秒级完成切换。调度逻辑不是随机的——需要根据任务类型、响应速度、成本策略与服务稳定性做综合判断。高并发场景下的限流、熔断、降级,都应在平台层统一处理,让业务层感知不到波动。这正是Salesforce所寻找的"smart router"逻辑——只不过它不应该是事后补救,而应该从第一天就内建在架构里。

用量可视,让每一笔消耗有据可查。

多租户架构下的权限划分、API Key分级授权、配额管理、限流控制、流量预警与审计追溯,这些能力协同运作,才能让每个部门、每个项目、每次调用的Token消耗有迹可查。管理者关心的几个核心问题——消耗了多少、是否超出预算、对应了什么业务价值——都需要能从系统里直接出答案,而不是依赖人工统计。Amazon员工刷Token数字的现象,一定程度上也反映了消耗数据不透明的问题:如果每一笔调用都有来源、有归因,"刷数字"的空间就会被大幅压缩。

安全合规,敏感数据不出域。

Token流转全过程中,需要构建可信处理机制,包括数据隔离、敏感信息识别与零留存处理。完整的审计日志与操作记录,为安全审计与监管合规提供支撑。这对金融、政务、医疗等高监管行业尤为关键——敏感数据不出域,调用记录全留痕,合规才能有据可依。

模型可信,接入的不应是黑盒。

接入平台的每一个模型能力,应当经过独立的评测和校验——覆盖模型稳定性、推理能力、安全风险等维度。接进来的如果是一个未经审视的黑盒,那Token管理就只剩下流量转发的意义了。平台的价值不在于"转发",而在于建立治理体系——做一个AI能力的统一入口和治理中枢,而不是一条简单的API代理通道。

四、哪些场景最先需要Token管理

从实际需求来看,三类场景的Token管理需求最为迫切:

代码智能研发。软件开发团队需要稳定高速的模型访问通道,支持IDE插件与CI/CD集成。团队规模扩大时,Token管控必须同步跟上,否则预算很容易被少数高频用户"吃掉"。

Agent平台与RAG知识库。多Agent高频并发调用场景,对限流、熔断与流量整形能力有硬性要求。高并发下的稳定性,直接决定Agent平台能否规模化运行。

高监管行业。金融、政务、医疗等领域需要支持私有化部署、多模型接入与本地化数据处理,满足等保、生成式AI合规及内控审计要求。敏感数据必须物理隔离,公有云方案有时并不适用——因此Token管理平台本身也需要支持公有云托管、专线接入、私有化部署等多种交付形态。

五、写在最后

Token管控平台,本质上是AI规模化落地的底层支撑。

部署AI不仅仅是接入模型。Token使用如果不可见、不可控、不可治理,AI系统就难以长期稳定运行——成本会失控,安全风险会累积。月烧33亿的那家公司,问题不是用了AI,而是用了AI却没有管理AI

当AI从少数人的尝鲜工具变成全公司的生产基础设施,Token管理就不再是一个可选项。它不是帮企业省钱的小工具,而是决定AI能跑多远的基础能力。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、失控的Token账单
  • 二、Token管理的三个核心矛盾
  • 三、一个合格的Token管理平台需要什么
  • 四、哪些场景最先需要Token管理
  • 五、写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档