配置告警

最近更新时间:2024-08-21 14:13:52

我的收藏

操作场景

腾讯云可观测平台产品默认为所有用户提供监控功能,无需用户手动开通。用户在使用了腾讯云某个产品后,可观测平台才可以开始收集监控数据。
TDMQ RabbitMQ 版支持监控您账户下创建的资源,包括集群、节点、Vhost、Queue 和 Exchange,帮助您实时掌握资源状态。您可以为监控指标配置告警规则,当监控指标达到设定的报警阈值时,可观测平台可以通过邮件、短信、微信、电话等方式通知您,帮助您及时应对异常情况。

配置告警规则

新建告警规则

您可以为监控指标配置告警规则,当监控指标达到设定的报警阈值时,腾讯云可观测平台可以通过邮件、短信、微信、电话等方式通知您,帮助您及时应对异常情况。
1. 在集群的监控页面,单击下图告警按钮跳转至 腾讯云可观测平台控制台 配置告警策略。

2. 告警策略页面,选择好策略类型和要设置告警的实例,设置好告警规则和告警通知模板。
监控类型:选择云产品监控
策略类型:选择消息队列TDMQ / RabbitMQ专享版
告警对象:选择需要配置告警策略的 RabbitMQ 资源。
触发条件:支持选择模板手动配置,默认选择手动配置,手动配置参见以下说明,新建模板参见 新建触发条件模板
通知模板:选择通知模板,也可以新建通知模板,设置告警接收对象和接收渠道。
您可以直接使用 TDMQ RabbitMQ 预设好的告警模板。步骤如下:
步骤1:策略类型选择消息队列TDMQ / RabbitMQ专享版 / 节点
步骤2:告警对象选择需要配置告警策略的 RabbitMQ 资源。
步骤3:触发条件勾选使用预置触发条件。会出现如下图所示的预置告警触发条件:

步骤4:根据业务需求,调整具体的触发条件。
说明:
有关告警的更多信息,详细请参见 腾讯云可观测平台告警服务
3. 单击完成,完成配置。

新建触发条件模板

2. 在左侧导航栏中,单击触发条件模板,进入触发条件列表页面。
3. 在触发条件模板页单击新建
4. 在新建模板页,配置策略类型。
策略类型:选择消息队列 TDMQ / RabbitMQ专享版
使用预置触发条件:勾选此选项,会出现系统建议的告警策略。
5. 确认无误后,单击保存

6. 返回新建告警策略页,单击刷新,就会出现刚配置的告警策略模板。


告警配置建议

本节为您介绍在使用 TDMQ RabbitMQ 版过程中需要重点关注的一些指标及其告警建议配置:
指标
维度
告警建议配置
详细说明
磁盘利用率(%)
节点
统计粒度1分钟,“磁盘利用率”数值 > 80%,持续5个数据点,每30分钟告警一次
磁盘使用率过高会导致节点没有足够的磁盘空间容纳消息分配到该节点上,从而导致消息无法落盘。建议在平均磁盘使用率超过80%时及时清理数据或扩容集群。
内存利用率(%)
节点
统计粒度1分钟,“内存利用率”数值 > 50%,持续5个数据点,每30分钟告警一次
内存利用率过高会阻塞消息生产。建议在内存利用率超过50%时及时加快消费、对生产进行流控或扩容集群。
CPU利用率(%)
节点
统计粒度1分钟,“CPU利用率”数值 > 70%,持续5个数据点,每30分钟告警一次
CPU 利用率过高会影响消息生产速度。建议在 CPU 利用率超过70%时及时扩容。
堆积消息数量(Count)
节点
统计粒度5分钟,“堆积消息数量”数值 > 业务预期堆积消息数量,持续5个数据点,每30分钟告警一次
堆积过多的消息会导致 Broker 节点磁盘使用率迅速上涨,无法再接入更多消息。需要进行扩容。
节点存活状况(%)
节点
统计粒度1分钟,“节点存活状况”数值 = 1,持续3个数据点,每15分钟告警一次
节点存活状况异常/宕机会导致消息丢失,尤其是在没有开启持久化或镜像队列的情况下。同时会增加其余节点的负载,从而导致集群性能下降。建议结合其他指标和告警信息检查原因。
说明:
指标:例如“连接数量”,选择统计粒度为1分钟,则在1分钟内,生产时延平均耗时连续N个数据点超过阈值,就会出发告警。
告警频次:例如“每30分钟警告一次”,指每30分钟内,连续多个统计周期指标都超过了阈值,如果有一次告警,30分钟内就不会再次进行告警,直到下一个30分钟,如果指标依然超过阈值,才会再次告警。