前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Kafka Producer

Kafka Producer

作者头像
shysh95
发布2020-03-19 17:53:13
6550
发布2020-03-19 17:53:13
举报
文章被收录于专栏:shysh95shysh95

Kafka Producer在发送消息大致有以下流程:

  1. 首先将消息封装在ProducerRecord中,并且序列化
  2. 将序列化后的消息发送给partitioner,partitioner主要用来确定消息发往哪个分区,默认的分区策略是轮询,如果消息有key,具有相同key的消息可以被发往同一分区,Kafka Producer也允许用户直接指定要发往的分区
  3. Producer有一个专门的Sender线程会从缓冲区获取消息,计算将要发往的Leader Broker然后进行发送。
必需参数
bootstrap.servers

指定一组host:port键值对,用于连接kafka broker节点,producer可以通过该参数发现Kafka集群中的所有broker,因此可以指定部分节点。

key.serializer

发往kafka的的消息都需要被序列化成二进制字节数组,该参数指定的是消息key的序列化格式,如果指定的StringSerializer,表明是将一个String字符串序列化成二进制字节数组。

目前支持的序列化格式有:

  • ByteArraySerializer:啥都不用做,本质就是个二进制字节数组
  • ByteBufferSerializer:序列化ByteBuffer
  • ByteSerializer:序列化Kafka自定义的Bytes类型
  • DoubleSerializer:序列化Double类型
  • IntegerSerializer:序列化Integer类型
  • LongSerializer:序列化Long类型
  • StringSerializer:序列化String类型

Kafka支持自定义序列化类型,只需要实现org.apache.kafka.common.serialization.Serializer接口。

value.serializer

指定消息内容的序列化格式

主要参数
acks

该参数主要用来控制消息的持久性,该参数主要有三个值:0、1、all(-1)

  • 0:表示Producer完全不用考虑broker的响应,发送完一条消息后立即开启下一条消息的发送,不用理会leader broker的响应,该设置吞吐量很高,但消息容易丢失
  • all(-1):表示发送消息时,leader broker不仅会将消息写入本地日志,同时还会等待ISR中所有副本(ISR副本数量由broker端的min.insync.replicas控制)都成功写入他们的本地日志后,才发送响应结果给producer,该设置吞吐量最低,但消息持久性最高
  • 1:producer发送消息后,leader broker进将消息成功写入本地日志后便返回响应给producer
buffer.memory

该参数用于指定producer发送消息缓冲区的大小,单位字节,默认值32MB。增加该参数的值可以提升吞吐量,但会增加延时。

compression.type

该参数用来设置是否开启消息压缩,默认值为none,目前Kafka支持GZIP、Snappy和LZ4。开启压缩后,可以降低网络I/O从而提升吞吐量,同时会增加CPU的压力。

retries

Producer在发送消息的时候有可能因为网络抖动从而发送失败,这种失败都是可以重试解决,retries参数决定了Producer内部的重试次数。

目前可以重试的异常主要有以下几种:

  • LeaderNotAvailableException:分区副本Leader不可用,通常出现在Leader选举期间
  • NotControllerException:controller不可用,通常出现在controller选举期间
  • NetworkException:网络瞬时故障导致的异常

重试有可能会导致以下问题:

  • 消息重复发送:kafka 0.11.0.0以前的版本需要用户对consumer进行去重处理,但在此版本以后可以在broker端将参数enable.idempotence设置为true,便可以实现消息的去重,此参数可以保证消息的幂等性
  • 消息乱序:Producer提供了max.in.flight.request.per.connect可以将该参数设置为1,表示Producer同一时刻只能发送一个请求
batch.size

Producer会将发往相同分区的消息进行汇总,当到达的该参数的设置值时,便将消息一同发往Leader Broker。

该参数的默认值是16KB,增加该参数可以提高吞吐量,但是相应的会增加消息的延迟

linger.ms

当消息无法满足batch size,但是超过了linger.ms的值时,也会将消息一同发往Leader Broker。

该参数默认值是0,表示不关心是否填满batch.size立即发送。

max.request.size

用于控制Producer发送请求的大小,默认值是1048576字节

request.timeout.ms

Producer发送请求给broker以后,broker需要在规定时间内返回响应,否则Producer会抛出TimemoutException需要客户端去处理。

该参数的默认值是30s。

多线程处理

KafkaProducer是线程安全的。

用法

说明

优势

劣势

多线程单KafkaProducer实例

所有线程共享一个KafkaProducer实例

实现简单、性能好

所有线程共享一个内存缓冲区,需要较多内存;一旦某个Producer线程崩溃将会导致KafkaProducer实例被破坏,所有线程无法工作

多线程多KafkaProducer实例

每个线程维护自己的专属KafkaProducer实例

每个用户线程拥有自己的专属KafkaProucer实例、缓冲区空间及一组对应的参数配置;单个KafkaProducer崩溃不会影响其他KafkaProducer

需要较大内存开销

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-03-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 程序员修炼笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 必需参数
    • bootstrap.servers
      • key.serializer
        • value.serializer
        • 主要参数
          • acks
            • buffer.memory
              • compression.type
                • retries
                  • batch.size
                    • linger.ms
                      • max.request.size
                        • request.timeout.ms
                        • 多线程处理
                        相关产品与服务
                        文件存储
                        文件存储(Cloud File Storage,CFS)为您提供安全可靠、可扩展的共享文件存储服务。文件存储可与腾讯云服务器、容器服务、批量计算等服务搭配使用,为多个计算节点提供容量和性能可弹性扩展的高性能共享存储。腾讯云文件存储的管理界面简单、易使用,可实现对现有应用的无缝集成;按实际用量付费,为您节约成本,简化 IT 运维工作。
                        领券
                        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档