问是否有一个变量来识别火花流中的每一批数据？
EN

Stack Overflow用户

提问于 2016-02-02 06:37:23

回答 1查看 2.4K关注 0票数 3

在火花流中，数据按批间隔进行处理。如果我将批处理间隔设置为5秒(val ssc = new StreamingContext(sc, Seconds(5)))：

1s~5s is first batch of data
6s~10s is second batch of data
10s~15s is third batch of data
……

是否有一个变量来识别火花流中的每一批数据？如果有这样的变量：

var batchID = 0

我可以获得batchID的值来识别哪一批数据，也可以通过batchID (如：window(……).filter(_.batchId == 1) )过滤数据。

或者有什么方法来区分每一批数据？

回答已采纳

发布于 2016-02-02 09:34:30

您可以使用foreachRDD，它的类型为(rdd: RDD[T], time: Time) => Unit。时间是数据流中RDD的标记，这意味着在连续两个批的两个调用中，时间参数将因一个批间隔持续时间而不同。

如果您需要为特定的时间间隔选择一些RDD，您可以简单地使用slice函数，这也是在上面的链接中指定的。

票数 5

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/35146665

复制

相似问题

问是否有一个变量来识别火花流中的每一批数据？EN