性能概览

最近更新时间:2025-11-28 11:09:22

我的收藏
性能概念用于分析该业务系统内所有 LLM 应用的整体性能表现。

操作步骤

2. 在左侧菜单栏中选择 LLM 可观测 > 性能概览
3. 通过右上方的时间选择器指定查询时间跨度。

指标说明

指标名称
说明
LLM 调用次数
统计指定时间范围内,应用发起的 LLM 服务调用总次数,直观反映 LLM 应用的业务访问热度。
LLM 调用平均耗时
指定时间内所有 LLM 调用的总耗时除以调用次数,是衡量 LLM 服务整体响应效率的基础指标。
LLM 调用耗时 P99
将指定时间内的 LLM 调用耗时按升序排列后,第99百分位对应的耗时值,反映99%的调用不会超过的耗时上限,用于评估极端场景下的性能。
LLM 调用耗时 P95
按升序排列所有 LLM 调用耗时后,第95百分位对应的耗时值,代表95%的调用耗时不超过该数值,体现大部分场景下的性能稳定性。
LLM 调用耗时 P50
又称中位数耗时,按升序排列所有 LLM 调用耗时后,第50百分位对应的耗时值,反映 LLM 调用的平均性能基准水平。
模型调用次数
统计指定时间内,LLM 模型的调用总次数,体现模型的实际使用频率。
首 Token 平均耗时
从发起 LLM 调用到接收返回的第一个 Token 的平均时间,是衡量 LLM 响应即时性的核心指标,直接影响用户交互体验。
模型调用平均耗时
指定时间内大模型调用总耗时除以模型的调用次数,用于衡量模型的整体运行效率。
模型调用错误率
指定时间内模型调用失败的次数占总调用次数的比例,直观反映 LLM 模型服务的稳定性与可用性。
Token 使用
统计指定时间内 LLM 调用过程中输入 Token 与输出 Token 的总数量(或分别统计),是计算模型使用成本与评估资源消耗的关键指标。