首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >使用Spark结构流时限制kafka批量大小

使用Spark结构流时限制kafka批量大小
EN

Stack Overflow用户
提问于 2018-10-24 21:55:27
回答 1查看 5K关注 0票数 8

我们有一些历史数据在我们的主题中排队,我们不想在一个批次中处理所有这些数据,因为这很难做到(如果失败,它必须重新开始!)。

此外,了解如何控制批处理大小将对调优作业非常有帮助。

在使用DStreams时,尽可能精确地控制批处理大小的方法是Limit Kafka batches size when using Spark Streaming

同样的方法,即设置maxRatePerPartition,然后调优batchDuration非常麻烦,但是对于DStream,它根本不适用于结构化流。

理想情况下,我想知道像maxBatchSizeminBatchSize这样的配置,在那里我可以简单地设置我想要的记录数。

EN

回答 1

Stack Overflow用户

发布于 2021-08-22 13:06:17

如果该主题是分区的,且所有分区都有消息,则可以携带的最小消息数等于该主题中的分区数。(即)如果每个分区有数据,则每个分区需要1条记录,如果只有一个分区有数据,则可以采用的最小记录为1。如果主题未分区,则可以采用最小1条记录和任何最大记录。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52970845

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档