我开始使用spark structured。
我通过waterMark从kafka topic (startOffset: latest)获取readStream,按事件时间和窗口时长分组,并写入kafka topic。
我的问题是,在spark结构化流媒体作业之前,我如何处理写入kafka主题的数据?
一开始我试着用‘`startOffset: with’来运行。但是kafka topic中的数据量太大,因此没有启动spark streaming流程,因为纱线超时。(即使我增加了超时值)
如果我简单地创建一个批处理作业并按特定的数据范围进行过滤,则为
如何处理旧数据和大数据?帮帮我。
发布于 2018-11-27 12:31:30
您可以尝试使用Kafka + Structured Streaming的参数maxOffsetsPerTrigger
来接收来自Kafka的旧数据。设置此参数的值为您希望一次从Kafka接收的记录数。
使用:
sparkSession.readStream
.format("kafka")
.option("kafka.bootstrap.servers", "localhost:9092")
.option("subscribe", "test-name")
.option("startingOffsets", "earliest")
.option("maxOffsetsPerTrigger", 1)
.option("group.id", "2")
.option("auto.offset.reset", "earliest")
.load()
https://stackoverflow.com/questions/53483483
复制相似问题