专栏首页T客来了提升内容-kafka consumer 小结(1)

提升内容-kafka consumer 小结(1)

目录

kafka consumer

  • 消费方式
  • 消费分区分配策略
  • 消费过程中offset的维护 - 老版本zk节点维护

1. 消费方式

1.1 broker push

这种消费方式由broker主动推送消息给消费者,消费者被动接收消息。缺点: consumer 消费能力不强的情况下可能出现拒绝服务、以及因网络问问题产生的网络拥塞的情况;

1.2 consumer pull

消费者主动轮询broker是否有数据可以消费,拉取消息的速率完全由consumer自己掌握,但是可能会出现broker没有数据,消费者陷入无限循环当中;解决的办法是,在kafka consumer消费数据时传入一个时长参数 timeout,防止cpu空转

2. 消费者组 consumer group 分区分配策略

一个consumer group 中有多个consumer, 一个topic 中会有多个partition;所以会出现消费者消费分区数据时,partition分配的问题,即确定哪个partition 由哪个consumer来消费?

2.1 round robin轮询策略

如下图所示: 假如同一个主题:

另外 consumer group 可以对多个主题进行消费: 看如下场景: 2个主题 T1、T2

在这种场景下分区策略伪代码如下所示:

def get_partition_index():
 
 return map(TopicAndPartition:List, hash()) mod num(consumers)
 

来确定分配给消费者组中消费者的partition index 这种方式消费者组会将所有topic 中的 partition 当作一个整体来轮询分配。分配主体是消费者组; 适用于 消费者组中所有 消费者 订阅的都是同一个主题 的场景。

2.2 Range 策略

2.2.1 Range 分配策略详解

range 分配主体是被消费的broker的单个主题: consumer group 中的单个consumer 被分配的 可消费 partition 个数差距越来越大。要点: 按主题来区分的。

range策略详述,我们根据一个场景来深入理解一下: 如下图所示:

当前某主题有8个partition,某消费者组中消费者的个数是3个,那么最终的分配结果如下图所示:

具体算法过程也很简单,简述一下:

1. 计算n = num(topic partitions)/num(consumers of consumer group) = 8/3 = 2
 
2. 计算m = num(topic partitions)%num(consumers of consumer group) = 2
 
3. 分配规则为消费组中的前m个消费者,每个消费者可以分配到的分区数为n+1 = 2+1=3, 剩余的消费者可消费的分区数为n
 

range 分配策略是有一些问题的:加入新的主题,但是消费者组中的消费者数量不变,那么头部的消费者就会被分配更多的partition,造成分配不均的问题。

2.2.2 调用Range的时机

当消费者组中的消费者数量发生变化的时候,就会调用Range策略。

3. 消费过程中offset的维护

3.1 为什么要维护offset

  1. case_1 - consumer宕机 consumer 在消费的过程中可能出现断电宕机的问题,consumer恢复后需要从消费前的位置(offset)继续消费消息,所以消费者在消费过程中需要实时记录消费到了哪个位置, 以便消费者恢复之后继续消费。
  2. case_2 - 添加一个consumer,根据消费者的分区分配策略,新加入的消费者很可能获取到之前消费者已经消费过的分区,那么这个消费者应该继续消费后续的消息。从哪里开始继续消费消息,就是offset的 作用所在。

3.2 offset 新老版本维护策略

3.2.1 老版本 - zookeeper 上保存消费者消费过的 消息 的offset

如下图所示,开启了4个窗口: (顺时针描述) 左上: 1个producer console - 生产消息至first topic(first topic 有3个partition,每个partition有2个replication)分区,具体消息进入哪个分区 ,属于无指定partition,无key,有value的情况,可以参考 producer 这一节来理解。右上: 1个consumer console(其实是一个消费者组,只不过只有1个消费者) - 消费 first topic 分区(leader) 中的消息 右下: 1个consumer console (其实是一个消费者组,只不过只有1个消费者) - 消费 first topic 分区(leader) 中的消息 左下: 1个zkcli console, 从中我们可以查看到具体的contoller、brokers、consumers、config 等相关信息

通过producer 发送消息 + consumer 消费消息, 在zkCli 中查看具体的消费者消费消息的offset变化 命令为:

./zkCli.sh -server localhost:2181
 
get /consumers/$consumer_group/offsets/$topic/$partition
 

所以老版本消费者消费消息的offset 记录方式为 [consumergroup]+[topic]+[partition index]采用这样的方式记录offset,当consumer group 中下线、上线新的consumer时,消费过的消息就不会被重新消费。

下一节我们继续学习新版本 bootstrap-server上保存消费者消费过的消息的offset机制!

本文分享自微信公众号 - T客来了(ltdo11),作者:bofeng

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-03-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Kafka剖析系列之Benchmark

    性能测试及集群监控工具 本章将介绍Kafka提供的性能测试工具,Metrics报告工具及Yahoo开源的Kafka Manager。 Kafka性能测试脚本 $...

    用户1263954
  • Kafka学习笔记之Kafka性能测试方法及Benchmark报告

      本文主要介绍了如何利用Kafka自带的性能测试脚本及Kafka Manager测试Kafka的性能,以及如何使用Kafka Manager监控Kafka的工...

    Jetpropelledsnake21
  • 极客时间kafka专栏评论区笔记

    Consumer Group :Kafka提供的可扩展且具有容错性的消息者机制。 1、重要特征: A:组内可以有多个消费者实例(Consumer Instanc...

    神秘的寇先森
  • kafka基础-文末思维导图

    **文末尾有思维导图**,文字就是思维导图的内容,如果不想看着,**可以直接拉到末尾,查看思维导图!**

    温安适
  • kafka基础-文末思维导图kafka基础

    文末尾有思维导图,文字就是思维导图的内容,如果不想看着,可以直接拉到末尾,查看思维导图!

    温安适
  • kafka项目经验之如何进行Kafka压力测试、如何计算Kafka分区数、如何确定Kaftka集群机器数量

    用Kafka官方自带的脚本,对Kafka进行压测。Kafka压测时,可以查看到哪个地方出现了瓶颈==(CPU,内存,网络IO)。一般都是网络IO达到瓶颈。 ==...

    孙晨c
  • kafka入门:简介、使用场景、设计原理、主要配置及集群搭

    Kafka is a distributed,partitioned,replicated commit logservice。它提供了类似于JMS的特...

    菲宇
  • Kafka系列8:一网打尽常用脚本及配置,宜收藏落灰!

    通过前面 7 篇文章的介绍,小伙伴们应该对 Kafka 运行工作原理有一个相对比较清晰的认识了。为了提高平时的工作效率,帮助我们快速定位一些线上问题,比如查看部...

    z小赵
  • kafka入门:简介、使用场景、设计原理、主要配置及集群搭建(转)

        Kafka is a distributed,partitioned,replicated commit logservice。它提供了类似于JMS的特...

    用户3003813
  • 小白也能看懂的简单明了kafka原理解析

    ? 介绍 ? 分布式消息系统kafka的提供了一个生产者、缓冲区、消费者的模型 ? broker:中间的kafka cluster,存储消息,是由多个se...

    小小科
  • Kafka 分布式消息系统

    本来打算给这篇文章起名叫“搭建Kafka消息队列集群(基础概念篇)”,然而,和RabbitMQ不同,Kafka并没有实现消息队列的协议(例如AMQP,Advan...

    张子阳
  • Kafka分布式消息系统(基本概念) - Part.1

    本来打算给这篇文章起名叫“搭建Kafka消息队列集群”,然而,和RabbitMQ不同,Kafka并没有实现消息队列的协议(例如AMQP,Advanced Mes...

    张子阳
  • 细说 Kafka Partition 分区

    Partition(分区)是 Kafka 的核心角色,对于 Kafka 的存储结构、消息的生产消费方式都至关重要。

    dys
  • Python操作分布式流处理系统Kafka

    什么是Kafka Kafka是一个分布式流处理系统,流处理系统使它可以像消息队列一样publish或者subscribe消息,分布式提供了容错性,并发处理消息...

    小小科
  • Python操作分布式流处理系统Kafka

    專 欄 ❈强哥,Python中文社区专栏作者,曾供职于摩根士丹利(Morgan Stanley)和eBay。❈ 什么是Kafka Kafka是一个分布式流处理...

    Python中文社区
  • 开源消息中间件Kafka在华泰证券的探索与实践

    Spark学习技巧
  • Apache Kafka内核深度剖析

    目前来说市面上可以选择的消息队列非常多,像activemq,rabbitmq,zeromq已经被大多数人耳熟能详,特别像activemq早期应用在企业中的总线通...

    ThoughtWorks
  • Kafka的生产者和消费者代码解析

    1:Kafka名词解释和工作方式 1.1:Producer :消息生产者,就是向kafka broker发消息的客户端。 1.2:Consume...

    别先生
  • Kafka的分区数是不是越多越好?

    场景描述:Kafka使用分区将topic的消息打散到多个分区分布保存在不同的broker上,实现了producer和consumer消息处理的高吞吐量。Kafk...

    Spark学习技巧

扫码关注云+社区

领取腾讯云代金券