首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >是否有一个变量来识别火花流中的每一批数据?

是否有一个变量来识别火花流中的每一批数据?
EN

Stack Overflow用户
提问于 2016-02-02 06:37:23
回答 1查看 2.4K关注 0票数 3

在火花流中,数据按批间隔进行处理。如果我将批处理间隔设置为5秒(val ssc = new StreamingContext(sc, Seconds(5))):

代码语言:javascript
运行
复制
1s~5s is first batch of data
6s~10s is second batch of data
10s~15s is third batch of data
……

是否有一个变量来识别火花流中的每一批数据?如果有这样的变量:

var batchID = 0

我可以获得batchID的值来识别哪一批数据,也可以通过batchID (如:window(……).filter(_.batchId == 1) )过滤数据。

或者有什么方法来区分每一批数据?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-02-02 09:34:30

您可以使用foreachRDD,它的类型为(rdd: RDD[T], time: Time) => Unit。时间是数据流中RDD的标记,这意味着在连续两个批的两个调用中,时间参数将因一个批间隔持续时间而不同。

您可以在这里找到foreachRDD的API:https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.streaming.dstream.DStream

如果您需要为特定的时间间隔选择一些RDD,您可以简单地使用slice函数,这也是在上面的链接中指定的。

票数 5
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35146665

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档