消息队列 CKafka 版配置告警策略

操作场景
消息队列 CKafka 版不仅为运行中的资源提供了多项监控指标，用于监测集群的运行情况，还提供了一些关键指标的配置告警功能。您可以为监控指标配置告警规则，创建的告警会将一段周期内监控的指标与给定阈值的情况进行比对，当监控指标达到设定的报警阈值时，可观测平台可以通过邮件、短信、微信、电话等方式通知您，您可以及时采取相应的预防或补救措施，合理地配置告警规则能帮助您提高应用程序的健壮性和可靠性。
推荐重点关注的监控指标和建议告警策略
以下为在使用 CKafka 过程中建议重点关注的监控指标及告警配置建议，建议您结合实际业务场景合理配置监控和告警策略，保障从资源瓶颈到业务风险的全面监测。
说明：
当您创建实例时，系统会根据默认预设模板为该实例创建默认告警策略并通知到模板预设的告警接收人，通常为主账号负责人。如您需要通知到实例负责人或其他人员，请自行配置告警规则和通知人员清单。
说明：
关于监控指标推荐关注级别的说明：
P0（默认告警）：该类指标，已在云监控创建默认告警策略，您创建实例后，腾讯云可观测平台为您默认开启，防止因突发流量或者到达规格限制而导致的异常。您可在告警策略简介查看开启的指标详情。
P1（建议告警）：该类指标，建议开启告警配置，您可在可观测平台手动开启，以便及时了解集群的生产消费异常情况并进行处理，防止对您的业务产生影响。
基础监控-P0
高级监控-P0（仅专业版支持）
指标名称
单位
推荐关注级别
告警建议配置
说明
告警处理建议
﻿实例生产带宽百分比﻿
%
P0（默认告警）
统计周期1分钟，>80%，持续5个周期，每10分钟告警一次
实例生产带宽占配额百分比，百分比占比过高可能导致生产被限流或延迟，影响消息实时性。
建议在实例基本信息页升级集群配置，或开启弹性带宽能力，留出缓冲空间。
﻿实例消费带宽百分比﻿
%
P0（默认告警）
统计周期1分钟，>80%，持续5个周期，每30分钟告警一次
实例消费带宽占配额百分比，百分比占比过高可能导致消费者被限流或延迟。
建议在实例基本信息页升级集群配置，或开启弹性带宽能力，留出缓冲空间。
﻿实例连接数﻿
Count
P0（默认告警）
统计周期1分钟，>80%，持续5个周期，每30分钟告警一次
客户端和服务器的连接数，可以反映集群的稳定性和性能。
建议优化客户端数量，如长期超80%使用率时，请提交工单申请提升配额，建议保留20%连接数缓冲空间。
﻿磁盘使用百分比﻿
%
P0（默认告警）
统计周期1分钟，>80%，持续5个周期，每30分钟告警一次
磁盘使用率表示集群各节点磁盘使用率的平均值。磁盘使用率过高会导致节点没有足够的磁盘空间容纳分配到该节点上，从而导致消息无法落盘。
建议在平均磁盘使用率超过75%时及时清理数据或扩容集群，或设置弹性磁盘自动扩容策略，防止影响业务正常运行。
﻿未消费的消息条数﻿
Count
P0（默认告警）
统计周期5分钟，>8000，持续10个周期，每30分钟告警一次
堆积过多的消息会导致 Broker 节点磁盘使用率迅速上涨，无法再接入更多消息，服务会停止。
建议配置消费者客户端监控并优化消费能力，当堆积量持续超过5000条时：
1. 扩容消费者实例或提升单实例消费线程数；
2. 检查消费者组是否存在宕机实例或消费卡顿；
3. 设置弹性动态消息保留策略，防止积压对磁盘产生影响。
指标名称
单位
推荐关注级别
告警建议配置
说明
处理建议
ZK 断联次数
Count
P0（默认告警）
统计周期1分钟，>3count，持续5个周期，每30分钟告警一次
Broker 和 Zookeeper 之间的长连接断开重连的次数。网络波动或者集群负载较高有可能会引起连接断开和重连，出现时会发生 leader 切换。
无正常值范围。该值是一个累加值，Broker 启动后，断连一次加1，只有 Broker 重启才会置0。
ZK 断连次数是累加的，次数大不表示集群有问题。需观察 ZK 断联频率，若 ZK 断联情况出现较频繁，则需进一步排查处理。
在控制台查看集群负载是否超80%，若超过阈值可以升级集群带宽规格。具体操作请参考升级集群规格。
该指标项如需告警，建议配置为环比告警。
﻿ISR扩充次数﻿
Count
P0（默认告警）
统计周期1分钟，>10count，持续5个周期，每30分钟告警一次
无正常值范围，当集群出现波动时，会出现扩充。
非频繁波动（如每小时<3次）无需干预，若该值持续增加需要排查。
建议保障集群负载水位处于80%以下，超过建议升配处理。具体操作请参考升级集群规格。
若集群水位正常，客户端可以优化生产端参数，调整 linger.ms 不为0，同时设置 ack=1，保证吞吐情况下，减少集群的同步压力。
如若频繁出现 ISR，生产或消费受到影响，且长时间未恢复，请联系我们。
ISR 收缩次数
Count
P0（默认告警）
统计周期1分钟，>3count，持续5个周期，每30分钟告警一次
无正常值范围，当集群出现波动时，会出现收缩。
瞬时波动无影响。若长期频繁出现，则需检查。
﻿
建议保障集群负载水位处于80%以下，超过建议升配处理。
如集群水位正常，建议对高负载分区进行手动分区平衡。
对于带 key 的消息，通过设置分区策略保障写入均衡。
如果单分区出现瓶颈，则增加分区提高写入并行度。
﻿未同步副本数﻿
Count
P0（默认告警）
统计周期1分钟，>3count，持续5个周期，每30分钟告警一次
为了保证您的实例正常运行，CKafka 为其设置了部分内置 Topic。这些 Topic 在某些情况下处于离线状态，但会被计入未同步副本数中，这并不影响您的业务正常运行。
正常情况下，未同步副本数应在5以下。如果曲线水位长期大于5，表示需要进行处理。
Broker 偶尔波动，曲线值凸起后，一段时间后，又回归平稳，属于正常现象。
当实例存在未同步副本，通常情况下是由于 Broker 节点异常或网络因素，可通过 Broker 日志来排查原因。
节点异常
Count
P0（默认告警）
统计周期1分钟，>3count，持续5个周期，每30分钟告警一次
节点异常原始指标来源于 BrokerMetrics，如果当前节点的 Metrics 信息为空，则认为当前节点异常。
常见情况为底层节点自身异常，不响应网络请求。
如频繁出现，生产消费持续受到影响，且长时间未恢复，请联系我们。
基础监控-P1
高级监控-P1
指标名称
单位
推荐关注级别
告警建议配置
说明
告警处理建议
实例最大生产流量
MB/s
P1（建议告警）
根据购买规格设定，推荐阈值为规格带宽×80%，统计周期1分钟，持续5个周期，每30分钟告警一次
实例单个副本的生产消息峰值带宽，反映业务吞吐量，提示带宽成本。超过购买规格可能会导致限流，需要及时调整。
建议在实例基本信息页升级集群配置，或开启弹性带宽能力，留出缓冲空间。
实例最大消费流量
MB/s
P1（建议告警）
根据购买规格设定，推荐阈值为规格带宽×80%，统计周期1分钟，持续5个周期，每30分钟告警一次
实例消费峰值带宽，反映消费端处理能力。超过购买规格可能导致限流，需要及时调整。
建议在实例基本信息页升级集群配置，或开启弹性带宽能力，留出缓冲空间。
实例落盘的消息总条数
Count
P1（建议告警）
根据实际业务规格设定，推荐阈值为磁盘容量/平均消息大小×60%，统计周期1分钟，持续5个周期，每30分钟告警一次
实例落盘的消息总条数（不包含副本），数值过高可能代表消费者消费能力不足，需优化消费者处理速度或进行磁盘扩容。
建议提升消息消费速度或者在智能运维的弹性伸缩页面对实例设置磁盘水位动态处理策略。
Topic 最大生产流量
MB/s
P1（建议告警）
根据购买规格设定，推荐阈值为 Topic 规格带宽×80%，统计周期1分钟，持续5个周期，每30分钟告警一次
Topic 的实际生产流量在单位时间内最大值（不包含副本产生的流量）。
数值过大可能触发生产限流，需监控峰值。过高可以考虑对当前 Topic 设置限流规则。
Topic 最大消费流量
MB/s
P1（建议告警）
根据购买规格设定，推荐阈值为 Topic 规格带宽×80%，统计周期1分钟，持续5个周期，每30分钟告警一次
Topic 的实际消费流量在单位时间内最大值（不包含副本产生的流量）。
建议观察 Topic 订阅关系和生产端连接关系，提升消费能力或手动分区均衡引流。
Topic 落盘的消息总条数
Count
P1（建议告警）
根据实际业务规格设定，推荐阈值为磁盘容量/Topic 数量/平均消息大小×60%，统计周期1分钟，持续5个周期，每30分钟告警一次
Topic 实际落盘的消息总条数（不包含副本），持续增长可能代表订阅 Topic 的消费能力不足，需检查消费者组状态或缩短消息保留时间。
建议排查调整消费端参数，提升吞吐量；或调整 Topic 高级参数，动态设置消息保留时长，并评估增加分区数以提升并行消费能力。
指标名称
单位
推荐关注级别
告警建议配置
说明
告警处理建议
Broker 节点存活
%
P1（建议告警）
统计周期1分钟，<100%，持续5个周期，每30分钟告警一次
各 Broker 节点服务状态，通过心跳机制检测节点可用性。
若节点存活率小于正常值，即存在 Broker 宕机情况，将触发 ISR 收缩。
告警与默认告警策略即将上线。
当节点状态异常时，建议立即重启故障节点并检查系统资源占用情况。
若多次重启失败，请联系在线客服。
集群负载
%
P1（建议告警）
统计周期1分钟，>80%，持续5个周期，每30分钟告警一次
集群整体负载情况，所有节点中取最大值。
单 AZ 部署，集群负载< 70% 。2 AZ 部署时，集群常态负载< 35% 。3 AZ 部署时，集群常态负载<47% 。
如果带宽使用率低但是集群负载高，需要结合集群负载指标进行集群带宽扩容。
告警与默认告警策略即将上线。
建议负载过高时，及时升级集群带宽规格。具体可参见集群容量规划实践教程。
管理默认告警策略
根据以上的推荐关注级别，消息队列 CKafka 版预设了多维度的默认告警策略，您可在腾讯云可观测平台上查看并修改这些默认策略，也可以针对业务情况设置自定义策略，快速开启实例告警监测。
1. 登录腾讯云可观测平台。
2. 在左侧导航栏选择告警管理 > 告警配置，在告警策略页面左侧的策略类型中选择消息队列 CKafka，可以查看到实例下的默认策略和自定义策略。
3. 通过选择左侧的告警类型，可以查看分类下的预设策略和自定义策略。
为了保证您的实例异常能被及时监测到，默认策略在您创建实例时已默认打开。您可以通过操作栏的编辑查看或者修改告警策略，也可以通过启停按钮修改策略的生效状态。详细介绍请参考告警策略简介。
4. 您也可以通过单击左上角的新建策略创建您的自定义策略，详细操作与介绍请参见新建告警策略。
﻿
配置自定义告警策略
步骤1：进入配置告警页面
CKafka 配置告警规则有三个不同的入口：实例列表配置告警、监控页面配置告警、腾讯云可观测平台配置告警。
入口一：登录 CKafka 控制台，在实例列表中，单击目标实例操作列的配置告警可以直接跳转到告警配置页面，页面默认设定的告警对象是当前实例，告警策略是预设的默认策略。
入口二：登录 CKafka 控制台，在实例列表中，单击目标实例的“ID”，在详情页选择监控页签，单击监控图表右上角的配置告警按钮可以跳转到告警配置页面，页面默认设定的告警对象是当前实例，告警指标是跳转前监控图表对应的监控指标。
入口三：登录腾讯云可观测平台控制台，在告警配置页面可以查看所有预设策略和自定义策略，单击新建策略，监控类型选择云产品监控，策略类型选择消息服务 CKafka。
步骤2：设置告警规则
1. 进入告警策略配置页面后，选择您要设置告警的对象。
所属标签：可以根据标签批量筛选您想配置告警策略的资源。
告警对象：选择需要配置告警策略的 CKafka 资源。
2. 设置告警触发条件，支持选择模板和手动配置，默认选择手动配置。
手动配置
选择模板
指标：例如“磁盘使用百分比”，选择统计粒度为1分钟，则在1分钟内，磁盘使用百分比连续 N 个数据点超过阈值，就会触发告警。
告警频次：例如“每30分钟警告一次”，指每30分钟内，连续多个统计周期指标都超过了阈值，如果有一次告警，30分钟内就不会再次进行告警，直到下一个30分钟，如果指标依然超过阈值，才会再次告警。
1. 勾选选择模板后，单击新建触发条件模板，跳转到设置触发条件模板页面。
2. 在左上角单击新建触发条件模板，在新建模板页面，配置告警策略。
策略类型：选择消息服务 CKafka，若勾选使用预置触发条件，则会出现系统建议的告警策略。
触发条件：根据我们提供的告警策略建议或者您实际的业务需求，设置好告警策略。
3. 确认无误后，单击保存。
﻿
4. 返回新建告警策略页，单击刷新，就会出现刚配置的告警策略模板。
﻿
﻿
﻿
说明：
关于配置告警策略功能的更多介绍，请参考配置指标告警文档。
3. 单击下一步：配置告警通知，配置告警通知人。
步骤3：配置告警通知
在配置告警通知页面，您可以选择系统预设的通知模板，预设模板的告警对象通常为主账号负责人。如您需要通知到实例负责人或其他人员，也可以单击新建模板来新建通知模板，设置告警接收对象和接收渠道。
新建通知模板的详细操作请参考新建通知模板。
﻿

指标名称	单位	推荐关注级别	告警建议配置	说明	告警处理建议
实例生产带宽百分比	%	P0（默认告警）	统计周期1分钟，>80%，持续5个周期，每10分钟告警一次	实例生产带宽占配额百分比，百分比占比过高可能导致生产被限流或延迟，影响消息实时性。	建议在实例基本信息页升级集群配置，或开启弹性带宽能力，留出缓冲空间。
实例消费带宽百分比	%	P0（默认告警）	统计周期1分钟，>80%，持续5个周期，每30分钟告警一次	实例消费带宽占配额百分比，百分比占比过高可能导致消费者被限流或延迟。	建议在实例基本信息页升级集群配置，或开启弹性带宽能力，留出缓冲空间。
实例连接数	Count	P0（默认告警）	统计周期1分钟，>80%，持续5个周期，每30分钟告警一次	客户端和服务器的连接数，可以反映集群的稳定性和性能。	建议优化客户端数量，如长期超80%使用率时，请提交工单申请提升配额，建议保留20%连接数缓冲空间。
磁盘使用百分比	%	P0（默认告警）	统计周期1分钟，>80%，持续5个周期，每30分钟告警一次	磁盘使用率表示集群各节点磁盘使用率的平均值。磁盘使用率过高会导致节点没有足够的磁盘空间容纳分配到该节点上，从而导致消息无法落盘。	建议在平均磁盘使用率超过75%时及时清理数据或扩容集群，或设置弹性磁盘自动扩容策略，防止影响业务正常运行。
未消费的消息条数	Count	P0（默认告警）	统计周期5分钟，>8000，持续10个周期，每30分钟告警一次	堆积过多的消息会导致 Broker 节点磁盘使用率迅速上涨，无法再接入更多消息，服务会停止。	建议配置消费者客户端监控并优化消费能力，当堆积量持续超过5000条时： 1. 扩容消费者实例或提升单实例消费线程数； 2. 检查消费者组是否存在宕机实例或消费卡顿； 3. 设置弹性动态消息保留策略，防止积压对磁盘产生影响。

配置告警策略

本页目录：

操作场景

推荐重点关注的监控指标和建议告警策略

管理默认告警策略

配置自定义告警策略

步骤1：进入配置告警页面

步骤2：设置告警规则

步骤3：配置告警通知