流处理中5秒的翻滚窗口与微批处理时5秒的微批有何不同?两者都有5秒的非重叠窗口,在此期间它们处理记录,然后继续进行。
我知道在流处理中有时间的概念:事件、摄取和处理时间。我们是否可以推断,使用微批处理的流处理只是使用具有摄取时间或处理时间的翻滚窗口的流处理?
发布于 2019-05-04 02:40:51
经过更多的研究,以下是我的结论
1. blocking out the "past" of the unbounded gigantic window/table
2. and **then** looking forward to the inbound data to this gigantic window in a finite time duration into the future say 10 seconds
3. processing it
4. go back to step 1
因此,作为黑盒的微批处理非常类似于翻滚窗口,但区别在于实现窗口处理所采用的底层架构/设计/方法。
来源:
Martin Klepmann
的
发布于 2019-05-06 03:32:04
据我所知,从结果的角度来看,它们非常相似。它们将允许处理给定时间段的某些部分数据。
您使用Spark是正确的,由于设计限制,Spark Streaming使用给定的持续时间读取一些非常小的数据部分。
在我看来,它们之间最大的区别是目的。Spark中的微批处理用于限制来自源的消费数据。
https://stackoverflow.com/questions/55933494
复制相似问题