查看事件记录

最近更新时间:2025-07-22 12:08:32

我的收藏
消息队列 CKafka 版的事件中心能力支持对实例运行过程中发生的各类运维事件、诊断事件、Broker 变更事件进行集中的管理、存储、分析和可视化展示,便于日后查询、审计和回溯。同时还支持事件告警能力,您可以为关键事件(如节点下线、磁盘自动扩容)配置告警规则,将事件详情发送给目标对象,便于运维人员及时处理。

CKafka 支持的事件类型和处理建议

CKafka 事件中心提供实例事件、诊断事件和 Broker 变更事件三类监控能力,其告警支持策略通过腾讯云可观测平台实现:部分事件类型可配置告警策略,部分事件仅开放观测能力,具体支持范围见下表:

实例事件

可告警事件
仅观测事件
事件中文名称
事件英文名称
事件描述
处理方法和建议
磁盘自动扩容
Disk auto-extension
磁盘占用率高触发了自动扩容
评估是否需要升配磁盘规格。
磁盘动态消息保留策略
Dynamic Message Retention Policy
磁盘占用率高触发了动态保留策略
评估是否需要升配磁盘规格。
消息保留时间动态变更
Dynamic change of message retention time
磁盘占用率高触发了消息保留时间动态变更
评估是否需要升配磁盘规格。
Kafka 版本升级
Kafka version upgrade
实例升级了版本
查看是否通过云 API 或者控制台调用了升级版本接口。
可用区变更
Availability zone changed
实例变更了可用区
查看是否通过云 API 或者控制台调用了变更可用区接口。
事件中文名称
事件英文名称
事件描述
处理方法和建议
自动化分区均衡
Auto Partition Rebalance
实例自动触发分区迁移以均衡负载
关注迁移过程时延,避免业务高峰期执行。
手动分区均衡
Manual Partition Rebalance
手动发起分区 Leader 重分配操作
操作后验证流量均衡性。
内核小版本升级
Minor Version Upgrade
修复安全漏洞或功能缺陷的紧急更新
检查版本兼容性,查看是否通过云 API 调用升级。
升配
Specification Upgrade
提升实例磁盘/带宽/分区等配置规格
建议跟进确认费用变化。
降配
Specification Downgrade
降低实例配置规格以缩减成本
建议跟进观察降配后对业务的影响,进一步评估。
公网带宽调整
Public Bandwidth Adjustment
修改公网访问带宽上限
查看是否通过云 API 调用了带宽变更接口,如出现错误,建议对应排查。
路由策略变更
Routing Policy Modification
调整 VPC 内访问路由规则
如出现错误,验证生产/消费端连通性。
ACL 策略变更
ACL Policy Update
增删 Topic 或 IP 访问控制规则
如出现错误,建议检查客户端日志。
用户增删
User Management
创建/删除 SASL 认证账户
建议同步更新生产消费端的认证凭证。
开启弹性带宽能力
Bandwidth Elasticity Enabled
启动按流量峰值自动扩缩带宽
建议同步跟进费用变化。
关闭弹性带宽能力
Bandwidth Elasticity Disabled
停止带宽自动扩缩机制
建议参考最近7天峰值流量,手动设置带宽上限。

诊断事件

仅观测事件
事件中文名称
事件英文名称
事件描述
处理方法和建议
定时实例诊断
Scheduled Instance Diagnosis
系统定期执行实例健康检查,覆盖网络、磁盘、Broker 状态等
当检测异常时查看诊断报告,针对性处理。
即时实例诊断
On-Demand Instance Diagnosis
用户手动触发的实时健康检测
当检测异常时查看诊断报告,针对性处理。

Broker 变更事件

可告警事件
仅观测事件
事件中文名称
事件英文名称
事件描述
处理方法和建议
消费分组成员心跳超时
Consumer group member heartbeat timed out
有消费者心跳超时
建议确认消费者是否正常。
偶尔的心跳超时可能是消费分组成员波动导致,如心跳超时频繁出现,建议根据业务逻辑排查消息处理是否有阻塞。如有阻塞,调整下游阻塞点。
或尝试调整实例配置。
消费分组成员更新
Consumer group member update metadata
有消费者组成员更新
建议查看消费组成员变更情况,如是否有发布或新加入。
消费分组 rebalance
Consumer group rebalance
消费分组发生 rebalance
偶尔的消费分组 Rebalance 可能为正常波动导致。如消费分组Rebalance持续出现或出现较为频繁,建议进一步排查,防止对消费产生影响。
排查消费组是否有心跳超时并处理。
排查是否有频繁创建/销毁消费者。
排查其余消费组事件。
集群节点上线
Cluster node online
集群有节点上线
建议先在事件中心查看是否有变配事件发生。当有变配发生时,集群节点出现上下线为正常情况,此时无需特殊关注。
偶尔的节点上下线可能为底层机器波动导致,无需特殊关注。
如有集群节点上线事件发生,且有生产或消费持续受到影响,且长时间未恢复,请联系我们
集群节点下线
Cluster node offline
集群有节点下线
建议先在事件中心查看是否有变配事件发生。当有变配发生时,集群节点出现上下线为正常情况,此时无需特殊关注。
偶尔的节点上下线可能为底层机器波动导致,无需特殊关注。
如有集群节点下线事件发生,且有生产或消费持续受到影响,且长时间未恢复,请联系我们
事件中文名称
事件英文名称
事件描述
处理方法和建议
Leader 切换
Leader Election
分区 Leader 副本发生转移(变配,副本均衡,容灾切换,计划内维护或 Broker 宕机都有可能触发)
偶尔的 leader 切换为正常情况,无需特殊关注。
如 leader 切换事件持续发生,有生产消费持续受到影响,且长时间未恢复,可尝试重启客户端。

查看事件记录

1. 登录 CKafka 控制台
2. 在左侧导航栏选择实例列表 ,单击目标实例的“ID”,进入实例详情页面。
3. 在页面上方选择事件中心页签,设置好时间范围(支持近7天、近30天和自定义时间范围),选择需要查看的事件类型,即可筛选出对应的事件记录。

4. 在事件详情页面,单击目标事件操作列的查看详情,您可以在右侧栏查看详细的事件记录。



单击操作列的配置告警,您可以在事件总线为事件配置通知模板,将事件详情发送给目标对象。

配置事件告警规则

2. 在左侧导航栏选择告警管理 > 告警配置,在左上角单击新建策略,填写好策略名称后设置告警规则。
监控类型:云监控
策略类型:选择消息服务 CKafka。
告警对象:选择需要配置告警策略的 CKafka 实例。
触发条件:支持选择模板和手动配置,默认选择手动配置。此处选择事件告警,并添加要配置告警的事件。

3. 点击下一步:配置告警通知,选择通知模板,也可以新建通知模板,设置告警接收对象和接收渠道。
4. 单击完成,即可完成告警规则的配置。