操作场景
消息队列 CKafka 版不仅为运行中的 CKafka 集群提供了多项监控指标,用于监测集群的运行情况,还提供了一些关键指标的配置告警功能,您可以为监控指标配置告警规则,当监控指标达到设定的报警阈值时,可观测平台可以通过邮件、短信、微信、电话等方式通知您,帮助您及时发现集群问题并进行处理。
操作步骤
配置告警规则
创建的告警会将一定周期内监控的指标与给定阈值的情况进行比对,从而判断是否需要触发相关通知。当 CKafka 状态改变而导致告警触发后,您可以及时进行相应的预防或补救措施,合理地创建告警能帮助您提高应用程序的健壮性和可靠性。
说明:
请务必对实例配置告警,防止因突发流量或者到达规格限制而导致的异常。
1. 登录 CKafka 控制台。
2. 在实例列表中,单击操作列的配置告警可以直接跳转到告警配置页面。
3. 在告警策略页面,选择好策略类型和要设置告警的实例,设置好告警规则和告警通知模板。
监控类型:选择云产品监控。
策略类型:选择消息服务 CKafka。
告警对象:选择需要配置告警策略的 CKafka 资源。
触发条件:支持选择模板和手动配置,默认选择手动配置,手动配置参见以下说明,新建模板参见 新建触发条件模板。
说明:
指标:例如“磁盘使用百分比”,选择统计粒度为1分钟,则在1分钟内,磁盘使用百分比连续N个数据点超过阈值,就会触发告警。
告警频次:例如“每30分钟警告一次”,指每30分钟内,连续多个统计周期指标都超过了阈值,如果有一次告警,30分钟内就不会再次进行告警,直到下一个30分钟,如果指标依然超过阈值,才会再次告警。推荐配置告警策略的指标参见 CKafka 推荐监控告警策略。
通知模板:选择通知模板,也可以新建通知模板,设置告警接收对象和接收渠道。
4. 单击完成,完成配置。
说明:
新建触发条件模板
1. 在配置告警规则页面,触发条件单击选择模板,单击新建触发条件模板,
2. 在新建模板页,配置策略类型。
策略类型:选择消息服务CKafka-实例。
使用预置触发条件:勾选此选项,会出现系统建议的告警策略。
3. 确认无误后,单击保存。

4. 返回新建告警策略页,单击刷新,就会出现刚配置的告警策略模板。


CKafka 告警配置建议
以下为在使用 CKafka 过程中需要重点关注的一些指标及其告警建议配置:
指标 | 告警建议配置 | 详细说明 |
磁盘使用率(%) | 统计周期1分钟,>80%,持续5个周期,每30分钟告警一次 | 平均磁盘使用率表示集群各节点磁盘使用率的平均值。磁盘使用率过高会导致节点没有足够的磁盘空间容纳分配到该节点上,从而导致消息无法落盘,建议在平均磁盘使用率超过75%时及时清理数据或扩容集群。 |
未消费的消息条数(Count) | 统计周期5分钟,>8000,持续10个周期,每30分钟告警一次 | 堆积过多的消息会导致 Broker 节点磁盘使用率迅速上涨,无法再接入更多消息,服务会停止。需要进行扩容 |
生产峰值带宽(MB/s) | 统计周期1分钟,>所购买的实例带宽规格,持续5个周期,每10分钟告警一次 | 一分钟内,客户每秒的流量最大值。判断是否超出当前所购买的流量上限。可根据此项适当选择升配操作等 |