腾讯云可观测平台性能概览

性能概念用于分析该业务系统内所有 LLM 应用的整体性能表现。
操作步骤
1. 登录 腾讯云可观测平台。
2. 在左侧菜单栏中选择 LLM 可观测 > 性能概览。
3. 通过右上方的时间选择器指定查询时间跨度。
指标说明
指标名称
说明
LLM 调用次数
统计指定时间范围内，应用发起的 LLM 服务调用总次数，直观反映 LLM 应用的业务访问热度。
LLM 调用平均耗时
指定时间内所有 LLM 调用的总耗时除以调用次数，是衡量 LLM 服务整体响应效率的基础指标。
LLM 调用耗时 P99
将指定时间内的 LLM 调用耗时按升序排列后，第99百分位对应的耗时值，反映99%的调用不会超过的耗时上限，用于评估极端场景下的性能。
LLM 调用耗时 P95
按升序排列所有 LLM 调用耗时后，第95百分位对应的耗时值，代表95%的调用耗时不超过该数值，体现大部分场景下的性能稳定性。
LLM 调用耗时 P50
又称中位数耗时，按升序排列所有 LLM 调用耗时后，第50百分位对应的耗时值，反映 LLM 调用的平均性能基准水平。
模型调用次数
统计指定时间内，LLM 模型的调用总次数，体现模型的实际使用频率。
首 Token 平均耗时
从发起 LLM 调用到接收返回的第一个 Token 的平均时间，是衡量 LLM 响应即时性的核心指标，直接影响用户交互体验。
模型调用平均耗时
指定时间内大模型调用总耗时除以模型的调用次数，用于衡量模型的整体运行效率。
模型调用错误率
指定时间内模型调用失败的次数占总调用次数的比例，直观反映 LLM 模型服务的稳定性与可用性。
Token 使用
统计指定时间内 LLM 调用过程中输入 Token 与输出 Token 的总数量（或分别统计），是计算模型使用成本与评估资源消耗的关键指标。
﻿
﻿

指标名称	说明
LLM 调用次数	统计指定时间范围内，应用发起的 LLM 服务调用总次数，直观反映 LLM 应用的业务访问热度。
LLM 调用平均耗时	指定时间内所有 LLM 调用的总耗时除以调用次数，是衡量 LLM 服务整体响应效率的基础指标。
LLM 调用耗时 P99	将指定时间内的 LLM 调用耗时按升序排列后，第99百分位对应的耗时值，反映99%的调用不会超过的耗时上限，用于评估极端场景下的性能。
LLM 调用耗时 P95	按升序排列所有 LLM 调用耗时后，第95百分位对应的耗时值，代表95%的调用耗时不超过该数值，体现大部分场景下的性能稳定性。
LLM 调用耗时 P50	又称中位数耗时，按升序排列所有 LLM 调用耗时后，第50百分位对应的耗时值，反映 LLM 调用的平均性能基准水平。
模型调用次数	统计指定时间内，LLM 模型的调用总次数，体现模型的实际使用频率。
首 Token 平均耗时	从发起 LLM 调用到接收返回的第一个 Token 的平均时间，是衡量 LLM 响应即时性的核心指标，直接影响用户交互体验。
模型调用平均耗时	指定时间内大模型调用总耗时除以模型的调用次数，用于衡量模型的整体运行效率。
模型调用错误率	指定时间内模型调用失败的次数占总调用次数的比例，直观反映 LLM 模型服务的稳定性与可用性。
Token 使用	统计指定时间内 LLM 调用过程中输入 Token 与输出 Token 的总数量（或分别统计），是计算模型使用成本与评估资源消耗的关键指标。

性能概览

本页目录：

操作步骤

指标说明