消息队列 CKafka 版的事件中心能力支持对实例运行过程中发生的各类运维事件、诊断事件、Broker 变更事件进行集中的管理、存储、分析和可视化展示,便于日后查询、审计和回溯。同时还支持事件告警能力,您可以为关键事件(如节点下线、磁盘自动扩容)配置告警规则,将事件详情发送给目标对象,便于运维人员及时处理。
CKafka 支持的事件类型和处理建议
CKafka 事件中心提供实例事件、诊断事件和 Broker 变更事件三类监控能力,其告警支持策略通过腾讯云可观测平台实现:部分事件类型可配置告警策略,部分事件仅开放观测能力,具体支持范围见下表:
实例事件
事件中文名称 | 事件英文名称 | 事件描述 | 处理方法和建议 |
磁盘自动扩容 | Disk auto-extension | 磁盘占用率高触发了自动扩容 | 评估是否需要升配磁盘规格。 |
磁盘动态消息保留策略 | Dynamic Message Retention Policy | 磁盘占用率高触发了动态保留策略 | 评估是否需要升配磁盘规格。 |
消息保留时间动态变更 | Dynamic change of message retention time | 磁盘占用率高触发了消息保留时间动态变更 | 评估是否需要升配磁盘规格。 |
Kafka 版本升级 | Kafka version upgrade | 实例升级了版本 | 查看是否通过云 API 或者控制台调用了升级版本接口。 |
可用区变更 | Availability zone changed | 实例变更了可用区 | 查看是否通过云 API 或者控制台调用了变更可用区接口。 |
事件中文名称 | 事件英文名称 | 事件描述 | 处理方法和建议 |
自动化分区均衡 | Auto Partition Rebalance | 实例自动触发分区迁移以均衡负载 | 关注迁移过程时延,避免业务高峰期执行。 |
手动分区均衡 | Manual Partition Rebalance | 手动发起分区 Leader 重分配操作 | 操作后验证流量均衡性。 |
内核小版本升级 | Minor Version Upgrade | 修复安全漏洞或功能缺陷的紧急更新 | 检查版本兼容性,查看是否通过云 API 调用升级。 |
升配 | Specification Upgrade | 提升实例磁盘/带宽/分区等配置规格 | 建议跟进确认费用变化。 |
降配 | Specification Downgrade | 降低实例配置规格以缩减成本 | 建议跟进观察降配后对业务的影响,进一步评估。 |
公网带宽调整 | Public Bandwidth Adjustment | 修改公网访问带宽上限 | 查看是否通过云 API 调用了带宽变更接口,如出现错误,建议对应排查。 |
路由策略变更 | Routing Policy Modification | 调整 VPC 内访问路由规则 | 如出现错误,验证生产/消费端连通性。 |
ACL 策略变更 | ACL Policy Update | 增删 Topic 或 IP 访问控制规则 | 如出现错误,建议检查客户端日志。 |
用户增删 | User Management | 创建/删除 SASL 认证账户 | 建议同步更新生产消费端的认证凭证。 |
开启弹性带宽能力 | Bandwidth Elasticity Enabled | 启动按流量峰值自动扩缩带宽 | 建议同步跟进费用变化。 |
关闭弹性带宽能力 | Bandwidth Elasticity Disabled | 停止带宽自动扩缩机制 | 建议参考最近7天峰值流量,手动设置带宽上限。 |
诊断事件
仅观测事件
事件中文名称 | 事件英文名称 | 事件描述 | 处理方法和建议 |
定时实例诊断 | Scheduled Instance Diagnosis | 系统定期执行实例健康检查,覆盖网络、磁盘、Broker 状态等 | 当检测异常时查看诊断报告,针对性处理。 |
即时实例诊断 | On-Demand Instance Diagnosis | 用户手动触发的实时健康检测 | 当检测异常时查看诊断报告,针对性处理。 |
Broker 变更事件
事件中文名称 | 事件英文名称 | 事件描述 | 处理方法和建议 |
消费分组成员心跳超时 | Consumer group member heartbeat timed out | 有消费者心跳超时 | 建议确认消费者是否正常。 偶尔的心跳超时可能是消费分组成员波动导致,如心跳超时频繁出现,建议根据业务逻辑排查消息处理是否有阻塞。如有阻塞,调整下游阻塞点。 或尝试调整实例配置。 |
消费分组成员更新 | Consumer group member update metadata | 有消费者组成员更新 | 建议查看消费组成员变更情况,如是否有发布或新加入。 |
消费分组 rebalance | Consumer group rebalance | 消费分组发生 rebalance | 偶尔的消费分组 Rebalance 可能为正常波动导致。如消费分组Rebalance持续出现或出现较为频繁,建议进一步排查,防止对消费产生影响。 排查消费组是否有心跳超时并处理。 排查是否有频繁创建/销毁消费者。 排查其余消费组事件。 |
集群节点上线 | Cluster node online | 集群有节点上线 | 建议先在事件中心查看是否有变配事件发生。当有变配发生时,集群节点出现上下线为正常情况,此时无需特殊关注。 偶尔的节点上下线可能为底层机器波动导致,无需特殊关注。 如有集群节点上线事件发生,且有生产或消费持续受到影响,且长时间未恢复,请联系我们。 |
集群节点下线 | Cluster node offline | 集群有节点下线 | 建议先在事件中心查看是否有变配事件发生。当有变配发生时,集群节点出现上下线为正常情况,此时无需特殊关注。 偶尔的节点上下线可能为底层机器波动导致,无需特殊关注。 如有集群节点下线事件发生,且有生产或消费持续受到影响,且长时间未恢复,请联系我们。 |
事件中文名称 | 事件英文名称 | 事件描述 | 处理方法和建议 |
Leader 切换 | Leader Election | 分区 Leader 副本发生转移(变配,副本均衡,容灾切换,计划内维护或 Broker 宕机都有可能触发) | 偶尔的 leader 切换为正常情况,无需特殊关注。 如 leader 切换事件持续发生,有生产消费持续受到影响,且长时间未恢复,可尝试重启客户端。 |
查看事件记录
1. 登录 CKafka 控制台。
2. 在左侧导航栏选择实例列表 ,单击目标实例的“ID”,进入实例详情页面。
3. 在页面上方选择事件中心页签,设置好时间范围(支持近7天、近30天和自定义时间范围),选择需要查看的事件类型,即可筛选出对应的事件记录。

4. 在事件详情页面,单击目标事件操作列的查看详情,您可以在右侧栏查看详细的事件记录。


单击操作列的配置告警,您可以在事件总线为事件配置通知模板,将事件详情发送给目标对象。
配置事件告警规则
1. 登录腾讯云可观测平台控制台。
2. 在左侧导航栏选择告警管理 > 告警配置,在左上角单击新建策略,填写好策略名称后设置告警规则。
监控类型:云监控
策略类型:选择消息服务 CKafka。
告警对象:选择需要配置告警策略的 CKafka 实例。
触发条件:支持选择模板和手动配置,默认选择手动配置。此处选择事件告警,并添加要配置告警的事件。

3. 点击下一步:配置告警通知,选择通知模板,也可以新建通知模板,设置告警接收对象和接收渠道。
4. 单击完成,即可完成告警规则的配置。