大模型服务平台 TokenHub 监控指标

最近更新时间:2026-06-25 17:21:19

我的收藏

命名空间

Namespace = QCE/TOKEN_HUB

监控指标

指标英文名
指标中文名
说明
单位
维度组合
统计规则
[周期,统计方式]
CacheCreationToken
每分钟写入缓存 token 数
anthropics 协议下每分钟创建缓存的 token 数
Count
uin
uin,modelname,endpoint,apikeyid
uin,modelname
uin,endpoint
uin,modelname,endpoint
uin,endpoint,apikeyid
[ 60s, sum ]
[ 300s, avg ]
[ 3600s, avg ]
[ 86400s, avg ]
CacheHitRatio
缓存命中率
请求缓存命中 token 数 / 输入总 token 数
%
[ 60s, expr ]
[ 300s, avg ]
[ 3600s, avg ]
[ 86400s, avg ]
CacheToken
每分钟读缓存 token 数
单位时间内命中缓存的 token 数
Count
[ 60s, sum ]
[ 300s, avg ]
[ 3600s, avg ]
[ 86400s, avg ]
CanceledRatio
超时错误率
因超时等原因触发的取消请求 / 总调用次数
%
[ 60s, expr ]
[ 300s, avg ]
[ 3600s, avg ]
[ 86400s, avg ]
ErrorRatio
错误率
HTTP 状态码非200请求数 / 总请求数
%
[ 60s, expr ]
[ 300s, avg ]
[ 3600s, avg ]
[ 86400s, avg ]
InputTotalToken
总输入 token 数
区间内总的输入 token 数(包含 cache)
Count
[ 60s, sum ]
[ 300s, sum ]
[ 3600s, sum ]
[ 86400s, sum ]
InputTpm
每分钟输入 Token 数
1分钟内总的输入 token 数(包含 cache,如果时间粒度是5分钟,是5分钟下每1分钟的平均值)
Count
[ 60s, sum ]
[ 300s, avg ]
[ 3600s, avg ]
[ 86400s, avg ]
NonStreamLatency
非流式接口延时
单位时间内针对非流式请求的 latency,端到端耗时
ms
[ 60s, avg ]
[ 300s, avg ]
[ 3600s, avg ]
[ 86400s, avg ]
OutputTotalToken
总输出 token 数
区间内总的输出 token 数
Count
[ 60s, sum ]
[ 300s, sum ]
[ 3600s, sum ]
[ 86400s, sum ]
OutputTpm
每分钟输出 Token 数
1分钟内总的输出 token 数(如果时间粒度是5分钟,是5分钟下每1分钟的平均值)
Count
[ 60s, sum ]
[ 300s, avg ]
[ 3600s, avg ]
[ 86400s, avg ]
Rpm
每分钟请求数
单位时间内请求的数量
None
[ 60s, sum ]
[ 300s, avg ]
[ 3600s, avg ]
[ 86400s, avg ]
RpmOverRatio
限流错误率
限流次数 / 总调用次数
%
[ 60s, expr ]
[ 300s, avg ]
[ 3600s, avg ]
[ 86400s, avg ]
TotalCacheCreationToken
写入缓存总 token 数
anthropics 协议下区间内创建缓存的总 token 数
Count
[ 60s, sum ]
[ 300s, sum ]
[ 3600s, sum ]
[ 86400s, sum ]
TotalCacheToken
读缓存总 token 数
区间内命中缓存的总 token 数
Count
[ 60s, sum ]
[ 300s, sum ]
[ 3600s, sum ]
[ 86400s, sum ]
TotalToken
总 token 数
区间内总的 token 数
Count
[ 60s, sum ]
[ 300s, sum ]
[ 3600s, sum ]
[ 86400s, sum ]
Tpm
每分钟总 Token 数
1分钟内总的 token 数,对应 TPM(如果时间粒度是5分钟,是5分钟下每1分钟的平均值)
Count
[ 60s, sum ]
[ 300s, avg ]
[ 3600s, avg ]
[ 86400s, avg ]
Tpot
每 Token 输出时延
单位时间内每 token 输出延时平均值
ms
[ 60s, avg ]
[ 300s, avg ]
[ 3600s, avg ]
[ 86400s, avg ]
Ttft
首 Token 延迟
单位时间内流式请求的 ttft 平均值
ms
[ 60s, avg ]
[ 300s, avg ]
[ 3600s, avg ]
[ 86400s, avg ]

各维度对应参数总览

参数名称
维度名称
维度解释
格式
Instances.N.Dimensions.0.Name
uin
腾讯云账号 UIN 的维度名称
输入 String 类型维度名称:uin
Instances.N.Dimensions.0.Value
uin
腾讯云账号 UIN
输入腾讯云账号 UIN,例如:100012345678
Instances.N.Dimensions.1.Name
modelname
大模型 ID 的维度名称
输入 String 类型维度名称:modelname
Instances.N.Dimensions.1.Value
modelname
大模型的具体模型 ID
输入大模型 ID,例如:deepseek-v3
Instances.N.Dimensions.2.Name
endpoint
大模型服务接入点的维度名称
输入 String 类型维度名称:endpoint
Instances.N.Dimensions.2.Value
endpoint
大模型服务的具体接入点
输入大模型服务接入点,例如:glm-5.2
Instances.N.Dimensions.3.Name
apikeyid
API Key ID 的维度名称
输入 String 类型维度名称:apikeyid
Instances.N.Dimensions.3.Value
apikeyid
调用大模型所使用的 API Key ID
输入 API Key ID,例如:sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

入参说明

大模型服务平台 TokenHub 提供了获取以下六种维度组合的监控数据:账号级别、账号-模型级别、账号-接入点级别、账号-接入点-模型级别、账号-接入点-API Key 级别、账号-模型-接入点-API Key 级别。
注意:
维度参数为必填项,且传入的维度字段集合必须与上述六种组合中的任一组合完全一致
不支持自定义维度组合,多传、少传或字段缺失均会导致接口返回参数校验失败。
uin 为所有维度组合的必备字段。
查询「账号」维度的监控指标数据,入参取值如下:
&Namespace=QCE/TOKEN_HUB
&Instances.N.Dimensions.0.Name=uin
&Instances.N.Dimensions.0.Value=腾讯云账号 UIN

查询「账号-模型」维度的监控指标数据,入参取值如下:
&Namespace=QCE/TOKEN_HUB
&Instances.N.Dimensions.0.Name=uin
&Instances.N.Dimensions.0.Value=腾讯云账号 UIN
&Instances.N.Dimensions.1.Name=modelname
&Instances.N.Dimensions.1.Value=大模型的具体模型 id

查询「账号-接入点」维度的监控指标数据,入参取值如下:
&Namespace=QCE/TOKEN_HUB
&Instances.N.Dimensions.0.Name=uin
&Instances.N.Dimensions.0.Value=腾讯云账号 UIN
&Instances.N.Dimensions.1.Name=endpoint
&Instances.N.Dimensions.1.Value=大模型服务的具体接入点

查询「账号-接入点-模型」维度的监控指标数据,入参取值如下:
&Namespace=QCE/TOKEN_HUB
&Instances.N.Dimensions.0.Name=uin
&Instances.N.Dimensions.0.Value=腾讯云账号 UIN
&Instances.N.Dimensions.1.Name=modelname
&Instances.N.Dimensions.1.Value=大模型的具体模型 id
&Instances.N.Dimensions.2.Name=endpoint
&Instances.N.Dimensions.2.Value=大模型服务的具体接入点

查询「账号-接入点-API Key」维度的监控指标数据,入参取值如下:
&Namespace=QCE/TOKEN_HUB
&Instances.N.Dimensions.0.Name=uin
&Instances.N.Dimensions.0.Value=腾讯云账号 UIN
&Instances.N.Dimensions.1.Name=endpoint
&Instances.N.Dimensions.1.Value=大模型服务的具体接入点
&Instances.N.Dimensions.2.Name=apikeyid
&Instances.N.Dimensions.2.Value=调用大模型所使用的 API Key ID

查询「账号-模型-接入点-API Key」维度的监控指标数据,入参取值如下:(最细粒度组合,可精确定位到某个 API Key 在指定接入点调用某个模型的监控数据)
&Namespace=QCE/TOKEN_HUB
&Instances.N.Dimensions.0.Name=uin
&Instances.N.Dimensions.0.Value=腾讯云账号 UIN
&Instances.N.Dimensions.1.Name=modelname
&Instances.N.Dimensions.1.Value=大模型的具体模型 id
&Instances.N.Dimensions.2.Name=endpoint
&Instances.N.Dimensions.2.Value=大模型服务的具体接入点
&Instances.N.Dimensions.3.Name=apikeyid
&Instances.N.Dimensions.3.Value=调用大模型所使用的 API Key ID