监控告警能力概述

最近更新时间:2025-07-25 16:12:11

我的收藏
消息队列 CKafka 版提供完善的可观测性体系,包括监控告警、事件记录、一键诊断等,帮助客户快速发现问题、定位问题、解决问题,确保业务稳定运行。

监控告警

监控能力

消息队列 CKafka 版基于腾讯云可观测平台提供了云产品的监控能力,可以对您账户下创建的资源进行实时监控,例如实例、Topic、Consumer Group 等,您可以通过这些监控指标了解集群的资源使用、连接数和消息积压等信息,以便更好地协助您判断集群容量水位及提前感知风险。

根据您所购买的实例版本,消息队列 CKafka 所支持的监控能力范围如下:
类型
适用版本
能力描述
适用场景
基础监控
全系列
通过基础监控,您可以查看实例、Topic、Consumer Group 三个维度的监控指标。
集群级指标观测,用于辅助异常问题发现、集群容量规划等基础运维场景需求。
高级监控
专业版
通过高级监控,您可以查看实例节点级监控指标,如核心服务、生产、消费、实例资源、Broker GC 等。
节点级指标观测,用于异常问题定位、限流分析、耗时分析等业务排障场景需求。
Dashboard
专业版
通过 Dashboard, 您可以查看 Broker 上所有的 TCP 连接数,Topic 的未同步副本详情、节点分布,以及部分关键指标如 Topic 流量、占用磁盘容量和 Consumer Group 消费速度的 Top 排行数据
关键指标 Top 排行,用于辅助生产消费热点分析、磁盘用量分析等业务优化分析场景需求。
Prometheus 监控
专业版
提供基于开源标准的 Prometheus exporter 接入方式,包括实例级指标和节点级指标等一系列开源 kafka 可监控的度量指标。
提供开源兼容的监控被集成方案,支持与用户自有运维平台集成和对接。

告警能力

消息队列 CKafka 版基于腾讯云可观测平台提供了云产品的告警能力,您可以在可观测平台为监控指标配置告警规则,当监控指标达到设定的报警阈值时,会通过邮件、短信、微信、电话等方式通知您,您可以及时采取相应的预防或补救措施,合理地配置告警规则能帮助您提高应用程序的健壮性和可靠性。

事件记录

消息队列 CKafka 版的事件中心能力支持对实例运行过程中发生的各类运维事件、诊断事件、Broker 变更事件进行集中的管理、存储、分析和可视化展示,便于日后查询、审计和回溯。同时还支持事件告警能力,您可以在腾讯云可观测平台针对关键事件(如节点下线、磁盘扩容失败)配置告警规则,便于运维人员及时处理。

一键诊断

消息队列 CKafka 专业版支持一键诊断功能,该功能能够主动排查集群风险和隐患,并基于腾讯云专家经验沉淀给出问题解决方案,自动归纳健康检查结果生成诊断报告。一键诊断能力能够为用户提取关键信息、定位问题、提供专业解决建议,实现运维体验闭环。