概述
模型路由处理费用覆盖平台为您提供的模型路由、请求/响应中转、流量优化及系统运维等服务成本。
注意:
为助力您更流畅地开始使用,在当前的推广期内,我们免费提供以下两项高价值网络加速与互联能力:
公网链路加速:当前所有转发至主流大模型服务的网络链路,均已集成 Agent 公网加速产品能力,有效降低延迟、提升稳定性。推广期(到2026年12月31日)内免费。
混合云原生互联:我们为您免费提供了混合云组网的原生 VPC 能力。您可以将部署在自有私有云或本地数据中心的服务,与我们网关的 VPC 网络进行安全、高速、低延迟的内网级互联,避免公网传输带来的安全与性能风险。推广期内免费。
请注意:模型路由处理费与上述免费权益独立。推广期结束后,网络加速与混合云组网服务将可能按相应规则独立计费,届时会有正式公告。
模型路由处理费与业界常见模式的差异如下:
特性维度 | 模型路由网关 | 业界常见代理模式 |
计费基础 | 处理的 Token 总量。无论上游模型单价如何,我们均对通过网关的 Token 总数进行计费。 | 按比例传递上游成本。通常基于用户实际上游开销(即模型 API 调用成本)按一定比例加成收费。 |
定价模式 | 固定单价。按照每百万 Token(M tokens)收取固定的处理费,价格不随上游模型定价变化。 | 浮动价格。收费随上游模型官方定价的波动而波动,用户最终成本随上游定价变化而变化。 |
覆盖范围 | 完整处理流量。计费依据是经过网关路由的所有输入与输出 Token 总和,包括上游模型可能产生的、但未直接返回给客户端的部分(例如工具调用的额外 Token、内部思考/推理过程的 Token)。 | 通常基于返回的 usage。计费主要依据上游模型返回的标准 usage 对象,覆盖范围取决于上游模型返回的 usage 字段定义,可能不包含部分模型内部消耗的 Token。 |
模型路由处理费不随上游模型单价变化,仅与您通过网关处理的总 Token 数量正相关,为您提供了更稳定的成本控制预期。
计费介绍
计算公式
总模型路由处理费 = Token 处理费
Token 处理费 = 总处理 Token 数 * 处理费单价
总处理 Token 数 ≈ 上游模型返回 usage 中的 total_tokens。总处理 Token 数是指单次请求中,经过网关路由的所有输入 Token 与输出 Token 的总和。
说明:
total_tokens 由输入和输出两部分构成,以下都会计入处理费用中:
输入 Token (prompt_tokens):来源于 usage.prompt_tokens_details 的细项总和,包括:
非缓存的输入 Token
输入 Token 读缓存
输入 Token 写缓存
输出 Token (completion_tokens):来源于 usage.completion_tokens_details 的细项总和,包括:
普通回复 Token (completion token)。
模型的推理/思考 Token (reasoning_tokens,如有)。
为完成工具调用所产生的额外 Token。
处理费单价:当前定价为 0.49 元 / 百万 Token。
计费示例
假设您通过我们的网关调用了一次上游模型(以 Kimi 为例)。
用户请求与上游模型响应示例:
{"id": "cmpl-a1b2c3d4e5f6a7b8c9d0e1f2","object": "chat.completion","created": 1774675200,"model": "kimi-k2-0905-preview","choices": [{"index": 0,"finish_reason": "stop","message": {"role": "assistant","content": "你好!"},"logprobs": null}],"usage": {"prompt_tokens": 98,"completion_tokens": 12,"total_tokens": 110,"prompt_tokens_details": {"cached_tokens": 64 // ← 缓存命中的 token 数,自动填充,是 prompt_tokens 的子集},"completion_tokens_details": {"reasoning_tokens": 0 // ← thinking 模型时此处非零,单价与普通 output 相同}}}
模型路由处理费用计算过程如下:
1. 确定总处理 Token 数:
网关从响应中提取 usage.total_tokens 字段,数值为 110 Tokens。
2. 计算 Token 处理费:
总处理 Token 数 = 110 Tokens
处理费单价 = 0.49 元 / 百万 Token = 0.49 元 / 1,000,000 Tokens
Token 处理费 = 110 / 1,000,000 * 0.49 ≈ 0.0000539 元
3. 对于此次调用,您将产生的模型路由处理费约为0.0000539元。无论本次调用的上游模型是 Kimi、GLM 还是 DeepSeek,只要处理的 Token 总数是110,此费用固定不变。