在火花流中,数据按批间隔进行处理。如果我将批处理间隔设置为5秒(val ssc = new StreamingContext(sc, Seconds(5))
):
1s~5s is first batch of data
6s~10s is second batch of data
10s~15s is third batch of data
……
是否有一个变量来识别火花流中的每一批数据?如果有这样的变量:
var batchID = 0
我可以获得batchID
的值来识别哪一批数据,也可以通过batchID (如:window(……).filter(_.batchId == 1)
)过滤数据。
或者有什么方法来区分每一批数据?
发布于 2016-02-02 09:34:30
您可以使用foreachRDD
,它的类型为(rdd: RDD[T], time: Time) => Unit
。时间是数据流中RDD
的标记,这意味着在连续两个批的两个调用中,时间参数将因一个批间隔持续时间而不同。
您可以在这里找到foreachRDD
的API:https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.streaming.dstream.DStream
如果您需要为特定的时间间隔选择一些RDD
,您可以简单地使用slice
函数,这也是在上面的链接中指定的。
https://stackoverflow.com/questions/35146665
复制相似问题