监控与告警

最近更新时间:2020-05-27 16:06:24

腾讯云默认为所有用户提供云监控功能,无需用户手动开通。用户必须在使用了腾讯云某个产品后,云监控才可以开始收集监控数据。

获取监控数据

获取方式

CKafka 控制台提供改了单独的监控数据读取选项卡。
CKafka 控制台提供两种维度的数据监控:实例维度和 Topic 维度。您可以通过控制台查看 CKafka 实例和 Topic 的生产流量、消费流量、消息堆积量等监控数据,并可任意调整查看的时间段。查看方法如下:

  1. 登录 CKafka 控制台
  2. 在实例列表中,单击操作列的【配置告警】可以直接跳转到告警配置页面。请务必对实例配置告警,防止因突发流量或者到达规格限制而导致的异常。
  3. 在实例列表中,单击需要查看的实例 ID/Topic ID,进入实例详情页。
  4. 在实例详情页顶部,单击【监控】,可查看监控数据。

CKafka 监控指标说明

实例监控:

监控指标 说明
生产流量(MB) 实例的实际生产流量(不包含副本产生的流量),按照所选择的时间粒度统计求和。
消费流量(MB) 实例的实际消费流量(不包含副本产生的流量),按照所选择的时间粒度统计求和。
生产条数(条) 实例的实际生产消息条数,按照所选择的时间粒度统计求和。
消费条数(条) 实例的实际消费消息条数,按照所选择的时间粒度统计求和。
已占用磁盘容量(MB) 实际占用磁盘的消息总量(包含副本),按照所选择的时间粒度取最新值。
落盘消息条数(条) 实际的落盘的消息总条数(不包含副本),按照所选择的时间粒度取最新值。
生产峰值带宽(MB/s) 实例生产消息时产生的最大流量(不包含副本产生的流量)。
消费峰值带宽(MB/s) 实例消费消息时产生的最大流量(消费时无副本的概念)。
磁盘使用百分比(%) 当前磁盘占用与实例规格磁盘总容量的百分比。
实例连接数(个) 客户端与服务器的连接数。

Topic 监控:

监控指标 说明
生产流量(MB) Topic 的实际生产流量(不包含副本产生的流量),按照所选择的时间粒度统计求和。
消费流量(MB) Topic 的实际消费流量(不包含副本产生的流量),按照所选择的时间粒度统计求和。
生产条数(条) Topic 的实际生产消息条数,按照所选择的时间粒度统计求和。
消费条数(条) Topic 的实际消费消息条数,按照所选择的时间粒度统计求和。
已占用磁盘容量(MB) Topic 实际占用磁盘的消息总量(不包含副本),按照所选择的时间粒度取最新值。
落盘消息条数(条) Topic 的实际的落盘的消息总条数(不包含副本),按照所选择的时间粒度取最新值。

消费分组-Topic 监控:

监控指标 说明
主题最大 offset 当前主题中所有分区的最大 offset。
主题消费 offset(区分 offset 最大值) 当前主题所有分区中消费组消费的最大 offset。
主题未消费消息数(条) 当前主题所有分区消费组未消费消息总和。
主题消费速度(条/分钟) 当前主题所有分区消费组消费速率总和。

消费分组-Partition 监控:

监控指标 说明
分区消费速度(条/分钟) 消费分组在该分区的消费速率(条/分钟)。
当前消费 offset 消费分组该分区当前消费 offset。
当前分区最大 offset 当前 分区 最大 offset。
未消费的消息条数(条) 消费分组在该分区下未消费消息数。

指标中英文对照详情参见文档 CKafka 监控指标

CKafka 监控 API 文档

CKafka 监控 API 详情可参见如下文档:

CKafka 告警策略

在 CKafka 状态改变时,可以创建告警来及时通知您采取措施。创建的告警会将一定周期内监控的指标与给定阈值的情况进行比对,从而判断是否需要触发相关通知。
状态改变而导致告警触发后,您可以及时进行相应的预防或补救措施。合理地创建告警能帮助您提高应用程序的健壮性和可靠性。有关告警的更多信息,请参考 云监控创建告警

CKafka 推荐监控告警策略

影响业务数据稳定性的指标请参考 CKafka 数据可靠性说明

根据历史用户反馈统计,建议对 CKafka 以下3个维度(共6项指标)配置监控和告警策略,请您根据实际情况合理配置监控和告警策略。

实例监控

监控指标 说明
生产峰值带宽(MB/s) 实例生产消息时产生的最大流量(不包含副本产生的流量)。
消费峰值带宽(MB/s) 实例消费消息时产生的最大流量(消费时无副本的概念)。
磁盘使用百分比(%) 当前磁盘占用与实例规格磁盘总容量的百分比。
实例连接数(个) 客户端与服务器的连接数。

Topic 监控

监控指标 说明
已占用磁盘容量(MB) Topic 实际占用磁盘的消息总量(不包含副本),按照所选择的时间粒度取最新值。

消费分组

监控指标 说明
未消费的消息条数(条) 消费分组未消费消息数。
目录