首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >流式处理:翻滚窗口与微批处理

流式处理:翻滚窗口与微批处理
EN

Stack Overflow用户
提问于 2019-05-01 16:26:48
回答 2查看 512关注 0票数 4

流处理中5秒的翻滚窗口与微批处理时5秒的微批有何不同?两者都有5秒的非重叠窗口,在此期间它们处理记录,然后继续进行。

我知道在流处理中有时间的概念:事件、摄取和处理时间。我们是否可以推断,使用微批处理的流处理只是使用具有摄取时间或处理时间的翻滚窗口的流处理?

EN

回答 2

Stack Overflow用户

发布于 2019-05-04 02:40:51

经过更多的研究,以下是我的结论

  • 早期版本至少1.6,就我所知(请随意纠正我),流处理的概念是基于微批处理的,其中流处理是作为批处理的特殊情况处理的,因此流可以在有限(非常小)的时间内以微批处理。duration.
  • Tumbling窗口是演进流处理模型的一部分(其中数据不断进入一个巨大的无限表,批处理被视为流处理的特例),它的工作方式是:

代码语言:javascript
运行
复制
1. blocking out the "past" of the unbounded gigantic window/table 
2. and **then** looking forward to the inbound data to this gigantic window in a finite time duration into the future say 10 seconds 
3. processing it 
4. go back to step 1 

因此,作为黑盒的微批处理非常类似于翻滚窗口,但区别在于实现窗口处理所采用的底层架构/设计/方法。

来源:

Martin Klepmann

  • http://blog.madhukaraphatak.com/introduction-to-flink-streaming-part-2/

  • Designing Data密集型应用程序
票数 0
EN

Stack Overflow用户

发布于 2019-05-06 03:32:04

据我所知,从结果的角度来看,它们非常相似。它们将允许处理给定时间段的某些部分数据。

您使用Spark是正确的,由于设计限制,Spark Streaming使用给定的持续时间读取一些非常小的数据部分。

在我看来,它们之间最大的区别是目的。Spark中的微批处理用于限制来自源的消费数据。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55933494

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档