模型监控

最近更新时间:2026-04-03 16:27:22

我的收藏

功能概述

模型监控 提供实时的模型推理性能监控仪表板,帮助您追踪各模型的请求并发、Token 吞吐、响应延迟等核心指标,及时发现性能瓶颈。

分类筛选

提供四个能力分类筛选:
分类
监控内容
文本生成
文本生成模型的 RPM(Requests Per Minute)、TTFT(Time To First Token)、TPOT(Time Per Output Token)等指标。
图像生成
图像生成模型的调用量、并发量等指标。
视频生成
视频生成模型的调用量、并发量等指标。
3D 生成
3D 生成模型的调用量、并发量等指标。

筛选条件

筛选项
说明
筛选维度
支持按服务/按模型筛选,切换不同的聚合视角。
服务选择
下拉选择特定推理服务(默认显示全部服务)。
时间范围
1小时/今天/近3天/近7天/近30天,或自定义时间区间。

监控指标说明

文本生成核心指标

以时序折线图的形式展示 3 个核心性能指标:
指标
全称
单位
说明
每分钟请求数(RPM)
Requests Per Minute
reqs/min
每分钟的请求并发数,反映当前的请求吞吐量。
首 Token 延迟(TTFT)
Time To First Token
ms
从请求发送到收到第一个 Token 的响应时间。
每 Token 输出时延(TPOT)
Time Per Output Token
ms
生成每个输出 Token 的平均耗时。
每项指标均提供最大值、最小值、平均值三项统计摘要,帮助用户快速定位性能异常。
示例如下:


图像/视频/3D 生成核心指标

图像、视频和 3D 生成模型的监控指标与文本生成不同,具体指标如下:
指标
说明
调用次数
每个时间点的调用请求数。
消耗积分数(仅视频生成、3D 生成提供)
每个时间点的积分消耗数。
示例如下: