问使用Spark结构流时限制kafka批量大小
EN

Stack Overflow用户

提问于 2018-10-24 21:55:27

回答 1查看 5K关注 0票数 8

我们有一些历史数据在我们的主题中排队，我们不想在一个批次中处理所有这些数据，因为这很难做到(如果失败，它必须重新开始！)。

此外，了解如何控制批处理大小将对调优作业非常有帮助。

在使用DStreams时，尽可能精确地控制批处理大小的方法是Limit Kafka batches size when using Spark Streaming

同样的方法，即设置maxRatePerPartition，然后调优batchDuration非常麻烦，但是对于DStream，它根本不适用于结构化流。

理想情况下，我想知道像maxBatchSize和minBatchSize这样的配置，在那里我可以简单地设置我想要的记录数。

发布于 2021-08-22 13:06:17

如果该主题是分区的，且所有分区都有消息，则可以携带的最小消息数等于该主题中的分区数。(即)如果每个分区有数据，则每个分区需要1条记录，如果只有一个分区有数据，则可以采用的最小记录为1。如果主题未分区，则可以采用最小1条记录和任何最大记录。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52970845

复制

相似问题

问使用Spark结构流时限制kafka批量大小EN