词汇表

最近更新时间:2026-04-09 14:57:36

我的收藏

M

每分钟 Token 用量

Tokens Per Minute,每分钟 Token 用量。服务在每分钟内能够处理(输入 + 输出)的 token 总数上限。这是限制服务吞吐量的关键配额指标。

每分钟请求数

Requests Per Minute,每分钟请求数。服务在每分钟内能够处理的独立请求(API 调用)数量上限。这是限制服务并发访问能力的关键配额指标。

每输出 Token 延时

Time Per Output Token,每输出 Token 延时(不含首 Token)。在输出首 Token 之后,模型生成后续每个输出 Token 所需的平均时间。此指标决定了下文“流式输出”的流畅度。

R

RPM

参见 每分钟请求数

S

首 Token 延时

Time To First Token,首 Token 延时。从用户发送完整请求到收到模型返回的第一个 token 所经历的时间。此指标直接影响用户感知的“响应速度”。

T

​​Token​

词元。大语言模型处理文本的基本单位。在中文中,一个词、一个字甚至一个标点都可能被划分为一个或多个 Token。它是衡量模型处理量和计算成本的核心单位。

TPM

参见 每分钟 Token 用量

TPOT

参见 每输出 Token 延时

TTFT

参见 首 Token 延时