操作场景
TDMQ RocketMQ 版支持监控您账户下创建的资源,包括集群、Topic、Group 等,您可以根据这些监控数据,分析集群的使用情况,针对可能存在的风险及时处理,保障系统的稳定运行。
本文为您介绍通过 TDMQ RocketMQ 版控制台查看监控指标的操作方法和监控指标的含义。
监控指标
TDMQ RocketMQ 版支持的监控指标如下:
分类 | 指标 | 单位 | 备注 | 指标支持维度 |
计费相关指标 | 总 TPS | Count/s | 集群、Topic | |
| 生产 TPS | Count/s | 集群、Topic | |
| 消费 TPS | Count/s | 集群、Topic | |
| 消息存储空间 | GBytes | - | 集群、Topic |
| 弹性 TPS | Count/s | 仅专业版和铂金版支持。 | 集群 |
| 被限流的生产 TPS | Count/s | - | 集群、Topic |
| 被限流的消费 TPS | Count/s | - | 集群、Topic、Group |
生产相关指标 | 生产消息条数 | Count/s | - | 集群、Topic |
| 生产流量 | MBytes/s | - | 集群、Topic |
| 生产者数量 | Count | 仅统计在线的生产者客户端。 | 集群、Topic |
| 生产成功率 | % | - | 集群、Topic |
| 生产消息平均耗时(发送RT) | ms | 使用 SDK 调用发送消息接口成功的耗时,即生产消息的 RT,仅 5.x 客户端能采集到该指标。 | 集群、Topic |
| 消息平均大小 | Bytes | - | 集群、Topic |
| 各类型消息数量变化 | Count | - | 集群 |
| 生产耗时分布 | - | 不同生产消息耗时范围的热力分布图(仅专业版和铂金版)。 | 集群、Topic |
| 生产消息大小分布 | - | 不同消息大小的热力分布图(仅专业版和铂金版)。 | 集群、Topic |
消费相关指标 | 消费消息条数 | Count/s | - | 集群、Topic、Group |
| 消息堆积条数 | Count | - | 集群、Topic、Group、Topic&Group |
| 消费流量 | MBytes/s | - | 集群、Topic、Group |
| 消费者数量 | Count | - | Topic、Group |
| 消费耗时 | ms | 消费者在开始处理消息到处理完成的耗时,仅 5.x 客户端能采集到该指标。 | 集群、Topic、Group、Topic&Group、消费者客户端 |
| 已就绪消息数 | Count | 状态为 Ready 的消息数量,表示在服务端可以被消费者消费的消息数量。 | 集群、Topic、Group、Topic&Group |
| 处理中的消息数 | Count | 状态为 Inflight 的消息数量,表示消息在服务端消费,还未返回消费结果的消息数量。 | 集群、Topic、Group、Topic&Group |
| 重试消息堆积条数 | Count | 重试消息队列中堆积的未消费成功的重试消息条数。 | Group、Topic&Group |
| 每秒被保存的死信消息条数 | Count | 每秒新增的状态为 DLQ 的消息数量,表示消息达最大重试次数后依旧消费失败,但是保存到指定 Topic 的消息数。 | 集群、Topic、Group、Topic&Group |
| 已就绪消息的排队时间 | ms | 最早一条已就绪消息的就绪时间和当前时刻的时间差,反映了消费者拉取消息的及时性。 | 集群、Topic、Group、Topic&Group |
| 消费处理滞后时间 | ms | 最早一条未返回响应的消息的就绪时间和当前时刻的时间差,反映了消费者完成消费消息的及时性。 | 集群、Topic、Group、Topic&Group |
| 重试消息条数 | Count | 消息被某个客户端消费失败后,转入重试队列的消息条数变化。 | Group |
| 消费耗时分布 | - | 不同消费消息耗时范围的热力分布图(仅专业版和铂金版)。 | 集群、Topic、Group、Topic&Group、消费者客户端 |
| 本地缓存队列中的消息条数 | Count | 仅展示 5.x 版本的 PushConsumer 客户端的数据,SimpleConsumer 客户端没有缓存队列。 | 集群、Topic、Group、Topic&Group |
| 本地缓存队列中的消息总大小 | Bytes | 仅展示 5.x 版本的 PushConsumer 客户端的数据, SimpleConsumer 客户端没有缓存队列。 | 集群、Topic、Group、Topic&Group |
| 本地缓存队列中的平均排队时间 | ms | 仅展示 5.x 版本的 PushConsumer 客户端的数据, SimpleConsumer 客户端没有缓存队列。 | 集群、Topic、Group、Topic&Group |
报错相关指标 | 客户端常见报错次数 | Count | 客户端请求服务端过程中报错的次数。 | 集群 |
| Router Not Found 报错次数 | Count | 通常为生产消息时对应的 Group/ Topic 名称和格式错误。 | 集群 |
| Subscription Not Exist | Count | 通常为消费消息时对应的 Group/ Topic 名称和格式错误。 | 集群 |
| 收发消息权限错误报错次数 | Count | 数据面收发消息鉴权错误,通常是因为客户端代码中使用的用户没有对应资源的生产/消费权限。 | 集群 |
公网相关指标 | 公网流出/入流量 | MB/s | - | 集群 |
| 公网流出/入带宽 | Mbps/s | - | 集群 |
| 公网流出/入带宽利用率 | % | - | 集群 |
| 公网丢弃出/入带宽 | Mbps/s | - | 集群 |
分类 | 指标 | 单位 | 备注 | 指标支持维度 |
计费相关指标(仅虚拟集群展示) | 总 TPS | Count/s | 集群、Topic | |
| 生产 TPS | Count/s | 集群、Topic | |
| 消费 TPS | Count/s | 集群、Topic | |
| 被限流的生产 TPS | Count/s | 当 API 调用次数超出集群限制时(按照计费规则进行折算),服务端会开启限流。 | 集群、Topic |
生产相关指标 | 生产消息条数 | Count/s | 每分钟内生产消息条数的均值变化。 | 集群、Topic |
| 生产流量 | MBytes/s | 生产消息的总流量变化。 | 集群、Topic |
消费相关指标 | 消费消息条数 | Count/s | 每分钟内消费消息条数的均值变化。 | 集群、Topic、Group |
| 消息堆积条数 | Count | 消息堆积条数变化。 | 集群、Topic、Group |
| 消费流量 | MBytes/s | 消费消息的总流量变化。 | 集群、Topic、Group |
| 在线消费者数量 | Count | - | Topic、Group |
| 重试消息堆积条数 | Count | 消息被某个客户端消费失败后,转入重试队列的消息条数变化。 | 集群、Group |
| 消费处理滞后时间 | s | 最早一条未返回响应的消息的就绪时间和当前时刻的时间差,反映了消费者完成消费消息的及时性。 | Topic、Group |
| 每秒被保存的死信消息条数 | Count/s | - | Group、Group& Topic |
| 死信消息 TPS | Count/s | - | Topic、Group |
公网相关指标 | 公网流出/入流量 | MB/s | 客户端请求集群的公网流量变化。 | 集群 |
| 公网流出/入带宽 | Mbps/s | 客户端请求集群的公网带宽变化。 | 集群 |
| 公网流出/入带宽利用率 | % | 当前带宽/购买时选择的带宽上限 * 100%。 | 集群 |
| 公网丢弃出/入带宽 | Mbps/s | 公网带宽被限流时产生值,大于0时请调整大集群的公网带宽限制。 | 集群 |
存储相关指标(仅通用集群/专享集群展示) | 磁盘可用空间 | MBytes | 购买时指定的集群存储空间 - 已使用的消息存储空间。 | 集群 |
| 磁盘使用比例 | % | 已使用的消息存储空间 / 购买时指定的集群存储空间。 | 集群 |
查看监控数据
1. 登录 RocketMQ 控制台。
2. 在左侧导航栏单击监控大盘,选择好地域和要查看的集群。
3. 在监控页面选择要查看的资源页签,设置好时间范围后,查看对应的监控数据。
图标 | 说明 |
![]() | 单击可调整图表时间粒度,支持1分钟、5分钟。 |
![]() | 单击可刷新获取最新的监控数据,支持设置30s、1min和5min时间间隔自动刷新监控数据。 |

在集群监控页面,您可以选择集群内的多个 Topic,查看多个 Topic 的指标对比,如下图所示。

同理,您可以查看某个Topic下,订阅关系内的多个 Group 的相关指标对比;也可以查看某个 Group 下,订阅关系内的多个 Topic 的相关指标对比。