消息队列 RocketMQ 版不仅为运行中的资源提供了多项监控指标,用于监测集群的运行情况,还提供了关键指标的配置告警功能。您可以为监控指标配置告警规则,创建的告警会将一定周期内监控的指标与给定阈值的情况进行比对,当监控指标达到设定的报警阈值时,可观测平台可以通过邮件、短信、微信、电话等方式通知您,您可以及时采取相应的预防或补救措施,合理地配置告警规则能帮助您提高应用程序的健壮性和可靠性。
告警配置建议
本节为您介绍在使用消息队列 RocketMQ 版过程中需要重点关注的一些指标及其告警配置建议,您可以根据业务需要进行配置:
资源维度 | 指标 | 告警建议配置 | 详细说明 |
集群 | 堆积消息条数(Count) | 统计周期1分钟,> 1000 Count,持续3个数据点,告警一次 | 堆积过多的消息会导致磁盘使用率迅速上涨,无法再接入更多消息,服务会停止。需要进行扩容。 |
| 被限流的消费 TPS(Count/s) | 统计周期1分钟,> 0 Count/s,持续3个数据点,告警一次 | 判断集群 TPS 是否超出当前所购买的流量上限。可根据此项适当选择升配操作等 |
| 被限流的生产 TPS(Count/s) | 统计周期1分钟,> 0 Count/s,持续3个数据点,告警一次 | 判断集群 TPS 是否超出当前所购买的流量上限。可根据此项适当选择升配操作等 |
| 集群公网丢弃入带宽(Bit/s) | 统计周期1分钟,> 0 Bit/s,持续3个数据点,告警一次 | 当入方向流量超过集群公网带宽上限时,超出部分的流量会被丢弃。这表明当前公网带宽容量可能无法满足业务需求,需要扩容。 |
| 集群公网丢弃出带宽(Bit/s) | 统计周期1分钟,> 0 Bit/s,持续3个数据点,告警一次 | 当出方向流量超过集群公网带宽上限时,超出部分的流量会被丢弃。这表明当前公网带宽容量可能无法满足业务需求,需要扩容。 |
Topic | 堆积消息条数(Count) | 统计周期1分钟,> 1000 Count,持续3个数据点,告警一次 | 堆积过多的消息会导致磁盘使用率迅速上涨,无法再接入更多消息,服务会停止。需要进行扩容。 |
| 被限流的消费 TPS(Count/s) | 统计周期1分钟,> 0 Count/s,持续3个数据点,告警一次 | 判断集群 TPS 是否超出当前所购买的流量上限。可根据此项适当选择升配操作等 |
| 被限流的生产 TPS(Count/s) | 统计周期1分钟,> 0 Count/s,持续3个数据点,告警一次 | 判断集群 TPS 是否超出当前所购买的流量上限。可根据此项适当选择升配操作等 |
Group | 堆积消息条数(Count) | 统计周期1分钟,> 1000 Count,持续3个数据点,告警一次 | 堆积过多的消息会导致磁盘使用率迅速上涨,无法再接入更多消息,服务会停止。需要进行扩容。 |
| 消费处理滞后时间(s) | 统计周期1分钟,> 1s,持续3个数据点,告警一次 | 消费处理滞后时间反映了消费者客户端完成消费消息的及时性,如果时间滞后过长表示消费者可能卡住或者出现性能瓶颈。 |
| 死信消息 TPS(Count/s) | 统计周期1分钟,> 0 Count/s,持续3个数据点,告警一次 | 每秒新增的死信消息数量,表示消息达最大重试次数后依旧消费失败,消费者可能卡住或者当前业务出现问题。 |
进入配置告警页面
入口一:登录TDMQ RocketMQ 版控制台,在监控大盘页面,单击监控图表右上角的配置告警按钮可以跳转到告警配置页面,页面默认设定的告警对象是跳转前监控图表对应的集群。

入口二:登录腾讯云可观测平台控制台,在告警配置页面可以查看所有预设策略和自定义策略,单击新建策略,监控类型选择云产品监控,策略类型选择消息队列TDMQ,5.x 集群请选择 RocketMQ5.x,4.x 集群请选择 RocketMQ4.x。
配置告警规则
消息队列 RocketMQ 版预设了全面的默认告警策略,您可在腾讯云可观测平台上查看并配置这些策略,并根据实际需求在默认策略的基础上进行灵活调整。
1. 进入告警策略配置页面后,策略类型根据您的集群类型选择消息队列 TDMQ/RocketMQ5.x 或者消息队列 TDMQ/RocketMQ4.x。
2. 选择您要设置告警的对象。
所属标签:可以根据标签批量筛选您想配置告警策略的资源。
告警对象:选择需要配置告警策略的 RocketMQ 资源。
3. 触发条件保持默认的手动配置,勾选使用预置触发条件,会出现如下图所示的系统预置告警触发条件,您可以根据这些默认策略快捷配置告警规则。

4. 单击下一步:配置告警通知,配置告警通知人。
1. 进入告警策略配置页面后,选择好策略类型,页面会自动展示当前资源类型提供的策略,您可以在默认告警策略基础上根据实际业务需求自定义配置告警策略。
2. 选择您要设置告警的对象。
所属标签:可以根据标签批量筛选您想配置告警策略的资源。
告警对象:选择需要配置告警策略的 RocketMQ 资源。
3. 设置告警触发条件,支持选择模板和手动配置,默认选择手动配置。
指标:例如“消息生产条数TPS”,选择统计粒度为1分钟,则在1分钟内,消息生产条数TPS连续N个数据点超过阈值,就会触发告警。
告警频次:例如“每30分钟告警一次”,指每30分钟内,连续多个统计周期指标都超过了阈值,如果有一次告警,30分钟内就不会再次进行告警,直到下一个30分钟,如果指标依然超过阈值,才会再次告警。
1. 勾选选择模板后,单击新建触发条件模板,跳转到设置触发条件模板页面。
2. 在左上角单击新建触发条件模板,在新建模板页面,配置告警策略。
策略类型:选择 消息队列 TDMQ,然后根据您的集群类型选择消息队列 TDMQ/RocketMQ5.x 或者消息队列 TDMQ/RocketMQ4.x。
触发条件:根据我们提供的告警策略建议或者您实际的业务需求,设置好告警策略。

3. 确认无误后,单击保存,返回新建告警策略页,单击刷新,就会出现刚配置的告警策略模板。

说明:
4. 单击下一步:配置告警通知,配置告警通知人。
配置告警通知
在配置告警通知页面,您可以选择系统预设的通知模板,预设模板的告警对象通常为主账号负责人。如您需要通知到实例负责人或其他人员,也可以单击新建模板来新建通知模板,设置告警接收对象和接收渠道。
