继之前《Kafka运维篇之初识Streams Messaging Manager》、《Kafka运维篇之使用SMM监控Kafka集群》和《Kafka运维篇之使用SMM预警策略管理Kafka预警》之后。我们今天介绍使用使用SMM监控Kafka集群的复制。
监视集群复制概述
您可以使用Streams Replication Manager(SRM)在SMM中实现跨集群的KafkaTopic复制。
SRM是一种企业级复制解决方案,可实现容错,可扩展且健壮的跨集群KafkaTopic复制。SRM提供了动态更改配置的功能,并使Topic属性在高性能的集群之间保持同步。SRM还提供了自定义扩展,可促进安装,管理和监视,从而使SRM成为针对任务关键型工作负载构建的完整复制解决方案。有关SRM的更多信息,请参阅Streams Replication Manager for HDF和HDP文档库。
您需要在SMM中配置SRM属性。在SMM中配置SRM之后,可以使用SMM来监视环境中可用的所有Kafka集群复制。您可以在SMM中查看所有复制详细信息。您可以在SMM中监视Kafka集群复制的状态,与复制关联的Topic数,吞吐量,复制延迟以及Kafka集群复制的检查点延迟。
注意
您还可以根据在预警策略中配置的条件创建预警以接收通知,以监视系统中的Kafka集群复制。
查看复制详细信息
选择集群后,SMM将显示复制的详细信息,其中所选集群是目标集群。
您可以查看复制的状态,源集群名称,目标集群名称,要复制的Topic数,消费者组数,复制的吞吐量,复制延迟和检查点延迟。SMM还显示两个图形,一个表示复制的吞吐量,另一个显示复制的复制等待时间以及每个要复制Topic的详细信息。
执行以下步骤以查看集群复制的详细信息:
在“ 集群复制”页面中,单击集群复制或复制旁边的下拉图标,如下图所示:
复制详细信息如下图所示:
按源搜索集群复制
您可以使用页面右上方的按源搜索栏按源集群名称搜索集群复制。例如,如果目标集群是amsterdam,并且在“按源搜索”栏中输入scottsdale,则SMM将显示scottsdale和amsterdam之间的Kafka集群复制,如下图所示:
通过快速范围监视集群复制
您可以按时间范围过滤集群复制。您可以从下拉列表中选择以下任何过滤器值,以显示所选时间范围内的集群复制详细信息:
• 最近1小时
• 最近6小时
• 最近24小时
• 最近2天
下图显示了“ 快速范围”下拉列表:
监视要复制的集群的状态
您可以在“集群复制”页面的“状态”列中监视Kafka集群复制的状态。
状态具有三种变化:
• 活性。表示集群复制正在运行。
• 无效。指示集群复制未在运行。
• 警告。表示集群复制面临问题。
如果Kafka集群复制的状态显示为非活动或警告,请检查日志,并对复制进行故障排除。
监视要复制的Topic
您可以在“集群复制”页面的“Topic”列中监视与复制关联的Topic数。
单击集群复制以获取Topic详细信息。SMM显示有关Topic的以下详细信息:
• 源Topic名称。源中Topic的名称。
• 分区。源上Topic的分区数。
• 消费者组。消费该Topic数据的消费者组的数量。
• 吞吐量。每秒从一个Topic在源集群和目标集群之间复制的数据。吞吐量以每秒字节数为单位。默认情况下,SMM显示平均吞吐量。您还可以通过单击Topic详细信息上方的MAX或MIN按钮来获取Topic的最大或最小吞吐量。
• 复制延迟。Topic消息从源集群复制到目标集群所花费的时间。复制等待时间以毫秒为单位。默认情况下,SMM显示平均复制延迟。您还可以通过单击Topic详细信息上方的MAX或MIN按钮来获取Topic的最大或最小复制延迟。
• 检查点延迟。将Topic的消息提交到源集群后,将其发送到目标集群上的检查点所花费的时间。检查点等待时间以毫秒为单位。默认情况下,SMM显示平均检查点延迟。您还可以通过单击Topic详细信息上方的MAX或MIN按钮来获取Topic的最大或最小检查点延迟。
下图显示了集群复制中Topic的详细信息:
在该图中,您可以看到从CDFCluster复制到CDFClusterDR的Topic数为7,Topic详细信息包括Topic名称,源集群中Topic的分区数,使用每个Topic的消息的消费者组的数量,每个Topic的吞吐量,复制延迟和检查点延迟。
按Topic名称搜索
您可以使用“按Topic名称搜索”栏按名称搜索Topic并获取该Topic的详细信息。下图显示了CDFCluster__heartbeatsTopic的详细信息:
监视集群复制的吞吐量
您可以在SMM中监视Kafka集群复制的吞吐量。
吞吐量定义为每秒在源集群和目标集群之间复制的数据。吞吐量以每秒字节数为单位。
在该图像中,您可以看到CDFCluster到CDFClusterDR复制的平均吞吐量为每秒3个字节。您可以通过单击集群复制上方的MAX或MIN按钮来获取复制的最大或最小吞吐量。
您还可以以图形方式监视集群复制的吞吐量。SMM在集群详细信息中显示每个集群的吞吐量图。下图显示了CDFCluster到CDFClusterDR复制的吞吐量图:
监视复制延迟以进行集群复制
您可以在SMM中监视Kafka集群复制的复制延迟。
复制等待时间定义为消息从源集群复制到目标集群所花费的时间。复制等待时间以毫秒为单位。
在该图像中,您可以看到CDFCluster到CDFClusterDR复制的平均复制延迟为16.0毫秒。您可以通过单击集群复制上方的MAX或MIN按钮来获取复制的最大或最小复制延迟。
您可以以图形方式监视集群复制的复制延迟。SMM在集群详细信息中显示每个集群的“复制延迟”图。下图显示了CDFCluster到CDFClusterDR复制的复制延迟图:
监视集群复制的检查点延迟
您可以在SMM中监视Kafka集群复制的检查点延迟。
检查点等待时间定义为Topic消息在源集群上提交后,在目标集群上到达目标集群的检查点所花费的时间。检查点等待时间以毫秒为单位。
在该图像中,您可以看到CDFCluster到CDFClusterDR复制的平均检查点延迟为4.6毫秒。您可以通过单击集群复制上方的MAX或MIN按钮来获取复制的最大或最小复制延迟。
注意
如果集群复制或Topic的检查点延迟显示为“不可用”,则意味着未定义消费者组。
通过值监视吞吐量和延迟
您可以获取吞吐量,复制延迟和检查点延迟的平均值,最大值和最小值。
您可以在以下级别上执行此操作:
• 集群复制级别。单击AVG,MAX或MIN按钮,如下图所示,以获取集群复制的吞吐量,复制延迟和检查点延迟的平均值,最大值或最小值。
• Topic级别。单击AVG,MAX或MIN按钮,如下图所示,以获取Topic的吞吐量,复制延迟和检查点延迟的平均值,最大值或最小值。
来源:https://docs.cloudera.com/csp/2.0.1/monitoring-kafka-cluster-replications/topics/smm-monitoring-replications-overview.html