问spark流比较两个批处理和筛选数据
EN

Stack Overflow用户

提问于 2017-06-07 09:38:18

回答 0查看 259关注 0票数 2

我想使用火花流比较两批和过滤数据

每5秒一批，

第一批：

key     type
aaa     0
aaa     1
bbb     0
ccc     0

第二批：

key     type
aaa     1
bbb     1
ddd     0

当spark streaming处理第二批时，与第一批进行比较，然后过滤结果：

key     type
ccc     0

相邻的两个批次，最后一个批次的数据(类型为0)必须是前一个批次中的(类型为1)，当前批次如下：

key     type
aaa     0
aaa     1

然后是第三批：

key     type
ddd     1
eee     0

筛选结果为空

如何使用Spark Streaming来做到这一点？

谢谢

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/44402138

复制

相似问题

问spark流比较两个批处理和筛选数据EN