如何确定Kafka集群适当的topics/partitions数量

扫帚的影子

发布于 2020-03-20 17:53:57

3.5K0

在一个Kafka集群中如何选择topics/partitions的数量

翻译自How to choose the number of topics/partitions in a Kafka cluster? ，同时结合了Benchmarking Apache Kafka: 2 Million Writes Per Second (On Three Cheap Machines) 的内容

通过阅读您可以了解过：

kafka的基本运行原理
kafka的性能如何
kafka为何效能好
kafka有哪些瓶颈

目前在Kafka 2.0版本中已经支持单集群200K的Partition数量，这真是可喜可贺啊～～～

性能测试

下面是从Benchmark of Kafka 中抽取的压测结果，仅供参考：

三台机器部署一个Kafka Cluster, 硬件配置如下：

Intel Xeon 2.5 GHz processor with 6 cores
6块 7200 RPM SATA drives 没有作RAID (JBOD方式)
32GB of RAM
1Gb Ethernet

压测结果：其中 同步复制 指的是msg复制到所有复本后才给Producer回ack, 异步复制指msg写Leader成功即给Producer回ack。
1. 生产吞吐量：

Broker数量	Producer 数量	Msg大小(Byte)	Partition数量	复本数量	复本同步策略	吞吐量（record/s）	吞吐量 (MB/s)
3	1	100	6	1		821,557	78.3
3	1	100	6	3	异步复制	786,980	75.1
3	1	100	6	3	同步复制	421,823	40.2
3	3	100	6	3	异步复制	2,024,032	193.0

2. 消费吞吐量：

Broker数量	Consumer 数量	Msg大小(Byte)	Partition数量	复本数量	是否同时生产	是否从page cache读	吞吐量（record/s）	吞吐量 (MB/s)
3	1	100	6	3	否	否	940,521	89.7
3	3	100	6	3	否	否	2,615,968	249.5
3	1	100	6	3	1个异步复制	是（边写边读）	795,064	75.8

  ##### 消息大小对性能的影响

处理大量的小消息(小于 100字节) 对于一个消息系统来说是比较困难的，无法更有效地利用网络带宽，服务端也会为处理每一个小消息来消耗大量资源。Kafka实际上也和其他的消息系统一样提供了批量写入的功能。针对消息大小对性能的影响，我们用两张图来说明一下。

随着消息体的增大，每秒钟能写入的record条数逐渐递减。

选区_036.png

随着消息体的增大，每秒钟能写入的数据量逐渐递增。

选区_037.png

PageCache对于性能的影响

我们知道Kafka在接受到msg后，并不是实时强制落盘，理论上它只定入PageCache, 这也是它可能loss data的原因之一。

对于消费者来说，如果它的消费没有lag, 那基本上它消费的数据全来自PageCache，将不会有任何的磁盘IO。但是如果有消费Group尝试消费旧数据，将引发从磁盘读取，这些旧数据进入PageCache，又进而引发了与新写入数据竞争PageCache。解决这个问题，可以通过对新写入数据自行增加一层缓存，以内存来换取性能。

经验值

针对kafka 1.1.0以及之后的版本，建议单台broker上partition数量不超过4000, 整个集群partition数量不超过2000,000，主要原因还是上面讲过的controller选举和controller重新选举partition leader的耗时。

相对kafka 1.1.0之前版本，这个parition数量已经有了很大提高，这全部得益于controller处理broker shutdown流程的优化，主要是针对zk的写操作异步化，批量化，将新的metadata通知给没有shutdown的broker也批量化，减少RPC次数，但是最最主要的，大家肯定想不到，是减少了不必要的log，具体可参考Apache Kafka Supports 200K Partitions Per Cluster, 我贴一段作者的说明：

A big part of the improvement comes from fixing a logging overhead, which unnecessarily logs all partitions in the cluster every time the leader of a single partition changes. By just fixing the logging overhead, the controlled shutdown time was reduced from 6.5 minutes to 30 seconds. The asynchronous ZooKeeper API change reduced this time further to 3 seconds. These improvements significantly reduce the time to restart a Kafka cluster.

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

如有侵权请联系 cloudcommunity@tencent.com 删除

kafka