腾讯云可观测平台产品默认为所有用户提供监控功能,无需用户手动开通。用户在使用了腾讯云某个产品后,可观测平台才可以开始收集监控数据。
TDMQ RocketMQ 版支持监控您账户下创建的资源,包括集群、Topic 和 Group,帮助您实时掌握资源状态。您可以为这些监控指标配置告警规则,当监控指标达到设定的报警阈值时,可观测平台可以通过邮件、短信、微信、电话等方式通知您,帮助您及时应对异常情况。
告警配置建议
如下为使用 RocketMQ 过程中推荐配置的告警指标及规则,同时控制台也提供了一键配置告警模板的能力,节约用户单个指标的配置时间。
指标 | 告警建议配置 | 详细说明 |
堆积消息条数(Count) | 统计周期1分钟,> 1000 Count,持续3个数据点,告警一次 | 堆积过多的消息会导致磁盘使用率迅速上涨,无法再接入更多消息,服务会停止。需要进行扩容。 |
被限流的消费 TPS(Count/s) | 统计周期1分钟,> 0 Count/s,持续3个数据点,告警一次 | 判断集群 TPS 是否超出当前所购买的流量上限。可根据此项适当选择升配操作等 |
被限流的生产 TPS(Count/s) | 统计周期1分钟,> 0 Count/s,持续3个数据点,告警一次 | 判断集群 TPS 是否超出当前所购买的流量上限。可根据此项适当选择升配操作等 |
集群公网丢弃入带宽(Bit/s) | 统计周期1分钟,> 0 Bit/s,持续3个数据点,告警一次 | 当入方向流量超过集群公网带宽上限时,超出部分的流量会被丢弃。这表明当前公网带宽容量可能无法满足业务需求,需要扩容。 |
集群公网丢弃出带宽(Bit/s) | 统计周期1分钟,> 0 Bit/s,持续3个数据点,告警一次 | 当出方向流量超过集群公网带宽上限时,超出部分的流量会被丢弃。这表明当前公网带宽容量可能无法满足业务需求,需要扩容。 |
配置告警规则
1. 登录 RocketMQ 控制台。
2. 在左侧导航栏单击监控大盘,选择好地域和要查看的集群。
3. 在集群的监控页面,点击 
图标,页面会跳转到腾讯云可观测平台的告警配置页面,同时自动配置上对应集群 ID 的相关资源的推荐告警指标及告警规则。



4. 在告警策略页面,您可以使用系统为您预设好的告警指标建议(推荐保留),也可以根据实际业务需要进行修改,或者自定义设置其他告警指标及规则。
策略类型:选择消息队列 TDMQ/RocketMQ5集群。
告警对象:选择需要配置告警策略的 RocketMQ 实例。
触发条件:支持选择模板和手动配置,默认选择手动配置,手动配置参见以下说明,新建模板参见 新建触发条件模板。
说明:
指标:例如“消息生产条数TPS”,选择统计粒度为1分钟,则在1分钟内,消息生产条数TPS连续N个数据点超过阈值,就会触发告警。
告警频次:例如“每30分钟警告一次”,指每30分钟内,连续多个统计周期指标都超过了阈值,如果有一次告警,30分钟内就不会再次进行告警,直到下一个30分钟,如果指标依然超过阈值,才会再次告警。
通知模板:选择通知模板,也可以新建通知模板,设置告警接收对象和接收渠道。
5. 单击完成,完成配置。
说明:
新建触发条件模板
1. 登录 腾讯云可观测平台控制台。
2. 进入新增触发条件模板页,有以下两种方式:
2.1 单击告警管理 > 告警配置 > 新建策略,进入新建告警策略页,在配置告警规则栏的触发条件项单击选择模板,然后单击新增触发条件模板。

2.2 单击告警管理 > 告警配置 > 触发条件模板 > 新建触发条件模板。

3. 在新建模板页,配置策略类型。
策略类型:选择 消息队列TDMQ/RocketMQ5。
使用预置触发条件:勾选此选项,会出现系统建议的告警策略。

4. 确认无误后,单击保存。
5. 返回新建告警策略页,就会出现刚配置的告警策略模板。