月烧33亿之后，Token管理不该是事后补课

原创

用户12501872

发布于 2026-06-02 13:54:24

870

一、失控的Token账单

今年最让科技圈瞠目结舌的一条消息，不是哪家公司发布了新模型，而是一份账单。

某家企业单月支付给Anthropic的Claude使用费用，折合人民币超过33亿元。

消息在X平台引发超过2000万次围观，所有人都在找：这家公司是谁？

没人找到答案，但这个问题本身，已经说明了一切——在AI大规模进入企业之后，Token消耗正在变成一个大多数公司根本看不见、也管不住的黑洞。

这家公司的遭遇，是极端案例，但绝不是孤例。

微软，此前给数千名工程师大规模开放Claude Code的使用权限，鼓励用AI提效。结果成本持续攀升，产出与预期脱节，公司不得不批量取消内部许可证。

Uber，2026年前四个月，已经用完了全年的AI Token预算。COO在采访中直接表态：Token消耗量的增加，和公司实际产出提升之间，尚未建立明确联系。钱在烧，价值却对不上。

Amazon，设定了"超过80%开发者每周使用AI"的内部目标，并追踪使用数据。员工的反应是什么？用内部平台执行无意义任务，刷Token数字。古德哈特定律在AI时代完成了一次精准复现：当一个指标变成目标，它就失去了衡量意义。

Meta，内部出现了AI使用排行榜，把员工分成"AI builders"，排名公开可见。排行榜相关消息曝光后，公司随即将排行榜下线，不再言语。

Salesforce，CEO Marc Benioff预计公司年度Anthropic账单将达3亿美元，同时开始寻找"smart router"，期望系统自动判断哪些问题用强模型、哪些用便宜小模型——本质是在亡羊补牢：先让AI跑起来，再想怎么控成本。

这些企业，没有一家是AI技术上的生手。但它们共同踩进了同一个坑：把AI接入了，没把AI管住。

Token，是AI系统运行的燃料。一次对话、一次代码生成、一次文档处理，都在消耗Token。当AI使用规模从十人扩展到百人、千人，Token消耗就从可预期的支出，变成了难以感知的黑洞。

Modal联合创始人兼CTO Akshat Bubna曾公开表示，他怀疑内部Token支出中，完全无效的比例约为50%。

50%。

这不是某家公司的个案数字。这是AI粗放使用的普遍代价。

会用AI赚钱的公司没几家，用AI烧钱的一抓一大把。月烧33亿的那家公司，只是最先把这个问题暴露在聚光灯下。

二、Token管理的三个核心矛盾

当一家企业的AI使用进入规模化阶段，三个问题几乎同时浮现。

接入碎片化。不同团队在不同项目中接入不同模型，接口标准各异，重复适配成本高。"多入口、多接口、多管理"的状态，让技术维护越来越重。

消耗不可见。各团队分别管理各自的账户和调用，Token消耗缺乏统一统计。大量资源在系统中持续被消耗，却没人说得清消耗在哪、产生了多少价值。这就是"Token黑洞"的形成路径。

调用不稳定。部分模型服务存在限流、降智或能力波动，一旦某个节点出问题，直接影响研发效率和业务连续性，甚至导致关键业务中断。

这三个问题，指向同一个判断：企业需要一套统一的Token管理与治理体系。它不是"要不要"的问题，而是"什么时候建"的问题。

三、一个合格的Token管理平台需要什么

如果把这些企业的教训当成需求清单，一个Token管理平台至少需要覆盖五个能力维度。目前国内已有厂商在这个方向上做了探索，以智能永信旗下的「春秋元泉」Token统一管控平台为例，可以看到这类产品的基本逻辑。

统一接入，降低对接成本。

将主流大模型能力进行标准化整合，团队完成一次接入后，通过统一API接口即可调用不同模型服务。对于同时使用多个模型的团队，这一点尤其关键——不用每接入一个模型就做一次适配开发，接入复杂度和维护成本大幅降低。

智能调度，保证业务连续性。

多通道冗余架构与智能故障切换，是Token管理平台的基础能力。当某个模型服务出现限流、波动或中断，系统需要能在毫秒级完成切换。调度逻辑不是随机的——需要根据任务类型、响应速度、成本策略与服务稳定性做综合判断。高并发场景下的限流、熔断、降级，都应在平台层统一处理，让业务层感知不到波动。这正是Salesforce所寻找的"smart router"逻辑——只不过它不应该是事后补救，而应该从第一天就内建在架构里。

用量可视，让每一笔消耗有据可查。

多租户架构下的权限划分、API Key分级授权、配额管理、限流控制、流量预警与审计追溯，这些能力协同运作，才能让每个部门、每个项目、每次调用的Token消耗有迹可查。管理者关心的几个核心问题——消耗了多少、是否超出预算、对应了什么业务价值——都需要能从系统里直接出答案，而不是依赖人工统计。Amazon员工刷Token数字的现象，一定程度上也反映了消耗数据不透明的问题：如果每一笔调用都有来源、有归因，"刷数字"的空间就会被大幅压缩。

安全合规，敏感数据不出域。

Token流转全过程中，需要构建可信处理机制，包括数据隔离、敏感信息识别与零留存处理。完整的审计日志与操作记录，为安全审计与监管合规提供支撑。这对金融、政务、医疗等高监管行业尤为关键——敏感数据不出域，调用记录全留痕，合规才能有据可依。

模型可信，接入的不应是黑盒。

接入平台的每一个模型能力，应当经过独立的评测和校验——覆盖模型稳定性、推理能力、安全风险等维度。接进来的如果是一个未经审视的黑盒，那Token管理就只剩下流量转发的意义了。平台的价值不在于"转发"，而在于建立治理体系——做一个AI能力的统一入口和治理中枢，而不是一条简单的API代理通道。

四、哪些场景最先需要Token管理

从实际需求来看，三类场景的Token管理需求最为迫切：

代码智能研发。软件开发团队需要稳定高速的模型访问通道，支持IDE插件与CI/CD集成。团队规模扩大时，Token管控必须同步跟上，否则预算很容易被少数高频用户"吃掉"。

Agent平台与RAG知识库。多Agent高频并发调用场景，对限流、熔断与流量整形能力有硬性要求。高并发下的稳定性，直接决定Agent平台能否规模化运行。

高监管行业。金融、政务、医疗等领域需要支持私有化部署、多模型接入与本地化数据处理，满足等保、生成式AI合规及内控审计要求。敏感数据必须物理隔离，公有云方案有时并不适用——因此Token管理平台本身也需要支持公有云托管、专线接入、私有化部署等多种交付形态。

五、写在最后

Token管控平台，本质上是AI规模化落地的底层支撑。

部署AI不仅仅是接入模型。Token使用如果不可见、不可控、不可治理，AI系统就难以长期稳定运行——成本会失控，安全风险会累积。月烧33亿的那家公司，问题不是用了AI，而是用了AI却没有管理AI。

当AI从少数人的尝鲜工具变成全公司的生产基础设施，Token管理就不再是一个可选项。它不是帮企业省钱的小工具，而是决定AI能跑多远的基础能力。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

token

大模型部署

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

token

大模型部署

登录后参与评论

0 条评论

热度