性能概念用于分析该业务系统内所有 LLM 应用的整体性能表现。
操作步骤
1. 登录 腾讯云可观测平台。
2. 在左侧菜单栏中选择 LLM 可观测 > 性能概览。
3. 通过右上方的时间选择器指定查询时间跨度。
指标说明
指标名称 | 说明 |
LLM 调用次数 | 统计指定时间范围内,应用发起的 LLM 服务调用总次数,直观反映 LLM 应用的业务访问热度。 |
LLM 调用平均耗时 | 指定时间内所有 LLM 调用的总耗时除以调用次数,是衡量 LLM 服务整体响应效率的基础指标。 |
LLM 调用耗时 P99 | 将指定时间内的 LLM 调用耗时按升序排列后,第99百分位对应的耗时值,反映99%的调用不会超过的耗时上限,用于评估极端场景下的性能。 |
LLM 调用耗时 P95 | 按升序排列所有 LLM 调用耗时后,第95百分位对应的耗时值,代表95%的调用耗时不超过该数值,体现大部分场景下的性能稳定性。 |
LLM 调用耗时 P50 | 又称中位数耗时,按升序排列所有 LLM 调用耗时后,第50百分位对应的耗时值,反映 LLM 调用的平均性能基准水平。 |
模型调用次数 | 统计指定时间内,LLM 模型的调用总次数,体现模型的实际使用频率。 |
首 Token 平均耗时 | 从发起 LLM 调用到接收返回的第一个 Token 的平均时间,是衡量 LLM 响应即时性的核心指标,直接影响用户交互体验。 |
模型调用平均耗时 | 指定时间内大模型调用总耗时除以模型的调用次数,用于衡量模型的整体运行效率。 |
模型调用错误率 | 指定时间内模型调用失败的次数占总调用次数的比例,直观反映 LLM 模型服务的稳定性与可用性。 |
Token 使用 | 统计指定时间内 LLM 调用过程中输入 Token 与输出 Token 的总数量(或分别统计),是计算模型使用成本与评估资源消耗的关键指标。 |