消息队列 CKafka 版提供完善的可观测性体系,包括监控告警、事件记录、一键诊断等,帮助客户快速发现问题、定位问题、解决问题,确保业务稳定运行。
监控告警
监控能力
消息队列 CKafka 版基于腾讯云可观测平台提供了云产品的监控能力,可以对您账户下创建的资源进行实时监控,例如实例、Topic、Consumer Group 等,您可以通过这些监控指标了解集群的资源使用、连接数和消息积压等信息,以便更好地协助您判断集群容量水位及提前感知风险。
根据您所购买的实例版本,消息队列 CKafka 所支持的监控能力范围如下:
类型 | 适用版本 | 能力描述 | 适用场景 |
基础监控 | 全系列 | 通过基础监控,您可以查看实例、Topic、Consumer Group 三个维度的监控指标。 | 集群级指标观测,用于辅助异常问题发现、集群容量规划等基础运维场景需求。 |
高级监控 | 专业版 | 通过高级监控,您可以查看实例节点级监控指标,如核心服务、生产、消费、实例资源、Broker GC 等。 | 节点级指标观测,用于异常问题定位、限流分析、耗时分析等业务排障场景需求。 |
Dashboard | 专业版 | 通过 Dashboard, 您可以查看 Broker 上所有的 TCP 连接数,Topic 的未同步副本详情、节点分布,以及部分关键指标如 Topic 流量、占用磁盘容量和 Consumer Group 消费速度的 Top 排行数据。 | 关键指标 Top 排行,用于辅助生产消费热点分析、磁盘用量分析等业务优化分析场景需求。 |
Prometheus 监控 | 专业版 | 提供基于开源标准的 Prometheus exporter 接入方式,包括实例级指标和节点级指标等一系列开源 kafka 可监控的度量指标。 | 提供开源兼容的监控被集成方案,支持与用户自有运维平台集成和对接。 |
告警能力
消息队列 CKafka 版基于腾讯云可观测平台提供了云产品的告警能力,您可以在可观测平台为监控指标配置告警规则,当监控指标达到设定的报警阈值时,会通过邮件、短信、微信、电话等方式通知您,您可以及时采取相应的预防或补救措施,合理地配置告警规则能帮助您提高应用程序的健壮性和可靠性。
事件记录
消息队列 CKafka 版的事件中心能力支持对实例运行过程中发生的各类运维事件、诊断事件、Broker 变更事件进行集中的管理、存储、分析和可视化展示,便于日后查询、审计和回溯。同时还支持事件告警能力,您可以在腾讯云可观测平台针对关键事件(如节点下线、磁盘扩容失败)配置告警规则,便于运维人员及时处理。
一键诊断
消息队列 CKafka 专业版支持一键诊断功能,该功能能够主动排查集群风险和隐患,并基于腾讯云专家经验沉淀给出问题解决方案,自动归纳健康检查结果生成诊断报告。一键诊断能力能够为用户提取关键信息、定位问题、提供专业解决建议,实现运维体验闭环。