负载均衡模型路由处理费

概述
模型路由处理费用覆盖平台为您提供的模型路由、请求/响应中转、流量优化及系统运维等服务成本。
注意：
为助力您更流畅地开始使用，在当前的推广期内，我们免费提供以下两项高价值网络加速与互联能力：
公网链路加速：当前所有转发至主流大模型服务的网络链路，均已集成 Agent 公网加速产品能力，有效降低延迟、提升稳定性。推广期(到2026年12月31日)内免费。
混合云原生互联：我们为您免费提供了混合云组网的原生 VPC 能力。您可以将部署在自有私有云或本地数据中心的服务，与我们网关的 VPC 网络进行安全、高速、低延迟的内网级互联，避免公网传输带来的安全与性能风险。推广期内免费。
请注意：模型路由处理费与上述免费权益独立。推广期结束后，网络加速与混合云组网服务将可能按相应规则独立计费，届时会有正式公告。
模型路由处理费与业界常见模式的差异如下：
特性维度
模型路由网关
业界常见代理模式
计费基础​
处理的 Token 总量。无论上游模型单价如何，我们均对通过网关的 Token 总数进行计费。
按比例传递上游成本。通常基于用户实际上游开销（即模型 API 调用成本）按一定比例加成收费。
定价模式​
固定单价。按照每百万 Token（M tokens）收取固定的处理费，价格不随上游模型定价变化。
浮动价格。收费随上游模型官方定价的波动而波动，用户最终成本随上游定价变化而变化。
覆盖范围​
完整处理流量。计费依据是经过网关路由的所有输入与输出 Token 总和，包括上游模型可能产生的、但未直接返回给客户端的部分（例如工具调用的额外 Token、内部思考/推理过程的 Token）。
通常基于返回的 usage。计费主要依据上游模型返回的标准 usage 对象，覆盖范围取决于上游模型返回的 usage 字段定义，可能不包含部分模型内部消耗的 Token。
模型路由处理费不随上游模型单价变化，仅与您通过网关处理的总 Token 数量正相关，为您提供了更稳定的成本控制预期。
计费介绍
计算公式
总模型路由处理费 = Token 处理费
Token 处理费 = 总处理 Token 数 * 处理费单价
总处理 Token 数 ≈ 上游模型返回 usage 中的 total_tokens。总处理 Token 数是指单次请求中，经过网关路由的所有输入 Token 与输出 Token 的总和。
说明：
total_tokens 由输入和输出两部分构成，以下都会计入处理费用中：
输入 Token (prompt_tokens)：来源于 usage.prompt_tokens_details 的细项总和，包括：
非缓存的输入 Token
输入 Token 读缓存
输入 Token 写缓存
输出 Token (completion_tokens)：来源于 usage.completion_tokens_details 的细项总和，包括：
普通回复 Token (completion token)。
模型的推理/思考 Token (reasoning_tokens，如有)。
为完成工具调用所产生的额外 Token。
处理费单价：当前定价为 0.49 元 / 百万 Token。
计费示例
假设您通过我们的网关调用了一次上游模型（以 Kimi 为例）。
用户请求与上游模型响应示例：
﻿
{
  "id": "cmpl-a1b2c3d4e5f6a7b8c9d0e1f2",
  "object": "chat.completion",
  "created": 1774675200,
  "model": "kimi-k2-0905-preview",
  "choices": [
    {
      "index": 0,
      "finish_reason": "stop",
      "message": {
        "role": "assistant",
        "content": "你好！"
      },
      "logprobs": null
    }
  ],
  "usage": {
    "prompt_tokens": 98,
    "completion_tokens": 12,
    "total_tokens": 110,
    "prompt_tokens_details": {
      "cached_tokens": 64        // ← 缓存命中的 token 数，自动填充，是 prompt_tokens 的子集
    },
    "completion_tokens_details": {
      "reasoning_tokens": 0      // ← thinking 模型时此处非零，单价与普通 output 相同
    }
  }
}
﻿
﻿
模型路由处理费用计算过程如下：
1. 确定总处理 Token 数：
网关从响应中提取 usage.total_tokens 字段，数值为 110​ Tokens。
2. 计算 Token 处理费：
总处理 Token 数 = 110 Tokens
处理费单价 = 0.49 元 / 百万 Token = 0.49 元 / 1,000,000 Tokens
Token 处理费 = 110 / 1,000,000 * 0.49 ≈ 0.0000539 元
3. 对于此次调用，您将产生的模型路由处理费约为0.0000539元。无论本次调用的上游模型是 Kimi、GLM 还是 DeepSeek，只要处理的 Token 总数是110，此费用固定不变。
﻿

特性维度	模型路由网关	业界常见代理模式
计费基础	处理的 Token 总量。无论上游模型单价如何，我们均对通过网关的 Token 总数进行计费。	按比例传递上游成本。通常基于用户实际上游开销（即模型 API 调用成本）按一定比例加成收费。
定价模式	固定单价。按照每百万 Token（M tokens）收取固定的处理费，价格不随上游模型定价变化。	浮动价格。收费随上游模型官方定价的波动而波动，用户最终成本随上游定价变化而变化。
覆盖范围	完整处理流量。计费依据是经过网关路由的所有输入与输出 Token 总和，包括上游模型可能产生的、但未直接返回给客户端的部分（例如工具调用的额外 Token、内部思考/推理过程的 Token）。	通常基于返回的 usage。计费主要依据上游模型返回的标准 usage 对象，覆盖范围取决于上游模型返回的 usage 字段定义，可能不包含部分模型内部消耗的 Token。

模型路由处理费

本页目录：

概述

计费介绍

计算公式

计费示例

模型路由处理费用计算过程如下：