查看监控

最近更新时间:2025-08-26 21:44:01

我的收藏

操作场景

TDMQ RocketMQ 版支持监控您账户下创建的资源,包括集群、Topic、Group 等,您可以根据这些监控数据,分析集群的使用情况,针对可能存在的风险及时处理,保障系统的稳定运行。
本文为您介绍通过 TDMQ RocketMQ 版控制台查看监控指标的操作方法和监控指标的含义。

监控指标

TDMQ RocketMQ 版支持的监控指标如下:
5.x 集群
4.x 集群
分类
指标
单位
备注
指标支持维度
计费相关指标
总 TPS
Count/s
生产和消费消息的 API 调用次数之和(按照 计费规则 进行折算)。
集群、Topic
生产 TPS
Count/s
每分钟生产消息的 API 调用次数峰值(按照 计费规则 进行折算)。
集群、Topic
消费 TPS
Count/s
每分钟消费消息的 API 调用次数峰值(按照 计费规则 进行折算)。
集群、Topic
消息存储空间
GBytes
-
集群、Topic
弹性 TPS
Count/s
仅专业版和铂金版支持。
集群
被限流的生产 TPS
Count/s
-
集群、Topic
被限流的消费 TPS
Count/s
-
集群、Topic、Group
生产相关指标
生产消息条数
Count/s
-
集群、Topic
生产流量
MBytes/s
-
集群、Topic
生产者数量
Count
仅统计在线的生产者客户端。
集群、Topic
生产成功率
%
-
集群、Topic
生产消息平均耗时(发送RT)
ms
使用 SDK 调用发送消息接口成功的耗时,即生产消息的 RT,仅 5.x 客户端能采集到该指标。
集群、Topic
消息平均大小
Bytes
-
集群、Topic
各类型消息数量变化
Count
-
集群
生产耗时分布
-
不同生产消息耗时范围的热力分布图(仅专业版和铂金版)。
集群、Topic
生产消息大小分布
-
不同消息大小的热力分布图(仅专业版和铂金版)。
集群、Topic
消费相关指标
消费消息条数
Count/s
-
集群、Topic、Group
消息堆积条数
Count
-
集群、Topic、Group、Topic&Group
消费流量
MBytes/s
-
集群、Topic、Group
消费者数量
Count
-
Topic、Group
消费耗时
ms
消费者在开始处理消息到处理完成的耗时,仅 5.x 客户端能采集到该指标。
集群、Topic、Group、Topic&Group、消费者客户端
已就绪消息数
Count
状态为 Ready 的消息数量,表示在服务端可以被消费者消费的消息数量。
集群、Topic、Group、Topic&Group
处理中的消息数
Count
状态为 Inflight 的消息数量,表示消息在服务端消费,还未返回消费结果的消息数量。
集群、Topic、Group、Topic&Group
重试消息堆积条数
Count
重试消息队列中堆积的未消费成功的重试消息条数。
Group、Topic&Group
每秒被保存的死信消息条数
Count
每秒新增的状态为 DLQ 的消息数量,表示消息达最大重试次数后依旧消费失败,但是保存到指定 Topic 的消息数。
集群、Topic、Group、Topic&Group
已就绪消息的排队时间
ms
最早一条已就绪消息的就绪时间和当前时刻的时间差,反映了消费者拉取消息的及时性。
集群、Topic、Group、Topic&Group
消费处理滞后时间
ms
最早一条未返回响应的消息的就绪时间和当前时刻的时间差,反映了消费者完成消费消息的及时性。
集群、Topic、Group、Topic&Group
重试消息条数
Count
消息被某个客户端消费失败后,转入重试队列的消息条数变化。
Group
消费耗时分布
-
不同消费消息耗时范围的热力分布图(仅专业版和铂金版)。
集群、Topic、Group、Topic&Group、消费者客户端
本地缓存队列中的消息条数
Count
仅展示 5.x 版本的 PushConsumer 客户端的数据,SimpleConsumer 客户端没有缓存队列。
集群、Topic、Group、Topic&Group
本地缓存队列中的消息总大小
Bytes
仅展示 5.x 版本的 PushConsumer 客户端的数据, SimpleConsumer 客户端没有缓存队列。
集群、Topic、Group、Topic&Group
本地缓存队列中的平均排队时间
ms
仅展示 5.x 版本的 PushConsumer 客户端的数据, SimpleConsumer 客户端没有缓存队列。
集群、Topic、Group、Topic&Group
报错相关指标
客户端常见报错次数
Count
客户端请求服务端过程中报错的次数。
集群
Router Not Found 报错次数
Count
通常为生产消息时对应的 Group/ Topic 名称和格式错误。
集群
Subscription Not Exist
Count
通常为消费消息时对应的 Group/ Topic 名称和格式错误。
集群
收发消息权限错误报错次数
Count
数据面收发消息鉴权错误,通常是因为客户端代码中使用的用户没有对应资源的生产/消费权限。
集群
公网相关指标
公网流出/入流量
MB/s
-
集群
公网流出/入带宽
Mbps/s
-
集群
公网流出/入带宽利用率
%
-
集群
公网丢弃出/入带宽
Mbps/s
-
集群
分类
指标
单位
备注
指标支持维度
计费相关指标(仅虚拟集群展示)
总 TPS
Count/s
生产和消费消息的 API 调用次数之和(按照 计费规则 进行折算)。
集群、Topic
生产 TPS
Count/s
每分钟生产消息的 API 调用次数峰值(按照 计费规则 进行折算)。
集群、Topic
消费 TPS
Count/s
每分钟消费消息的 API 调用次数峰值(按照 计费规则 进行折算)。
集群、Topic
被限流的生产 TPS
Count/s
当 API 调用次数超出集群限制时(按照计费规则进行折算),服务端会开启限流。
集群、Topic
生产相关指标
生产消息条数
Count/s
每分钟内生产消息条数的均值变化。
集群、Topic
生产流量
MBytes/s
生产消息的总流量变化。
集群、Topic
消费相关指标
消费消息条数
Count/s
每分钟内消费消息条数的均值变化。
集群、Topic、Group
消息堆积条数
Count
消息堆积条数变化。
集群、Topic、Group
消费流量
MBytes/s
消费消息的总流量变化。
集群、Topic、Group
在线消费者数量
Count
-
Topic、Group
重试消息堆积条数
Count
消息被某个客户端消费失败后,转入重试队列的消息条数变化。
集群、Group
消费处理滞后时间
s
最早一条未返回响应的消息的就绪时间和当前时刻的时间差,反映了消费者完成消费消息的及时性。
Topic、Group
每秒被保存的死信消息条数
Count/s
-
Group、Group& Topic
死信消息 TPS
Count/s
-
Topic、Group
公网相关指标
公网流出/入流量
MB/s
客户端请求集群的公网流量变化。
集群
公网流出/入带宽
Mbps/s
客户端请求集群的公网带宽变化。
集群
公网流出/入带宽利用率
%
当前带宽/购买时选择的带宽上限 * 100%。
集群
公网丢弃出/入带宽
Mbps/s
公网带宽被限流时产生值,大于0时请调整大集群的公网带宽限制。
集群
存储相关指标(仅通用集群/专享集群展示)
磁盘可用空间
MBytes
购买时指定的集群存储空间 - 已使用的消息存储空间。
集群
磁盘使用比例
%
已使用的消息存储空间 / 购买时指定的集群存储空间。
集群

查看监控数据

1. 登录 RocketMQ 控制台
2. 在左侧导航栏单击监控大盘,选择好地域和要查看的集群。
3. 在监控页面选择要查看的资源页签,设置好时间范围后,查看对应的监控数据。
图标
说明



单击可调整图表时间粒度,支持1分钟、5分钟。



单击可刷新获取最新的监控数据,支持设置30s、1min和5min时间间隔自动刷新监控数据。

在集群监控页面,您可以选择集群内的多个 Topic,查看多个 Topic 的指标对比,如下图所示。

同理,您可以查看某个Topic下,订阅关系内的多个 Group 的相关指标对比;也可以查看某个 Group 下,订阅关系内的多个 Topic 的相关指标对比。