我想使用火花流比较两批和过滤数据
每5秒一批,
第一批:
key type
aaa 0
aaa 1
bbb 0
ccc 0
第二批:
key type
aaa 1
bbb 1
ddd 0
当spark streaming处理第二批时,与第一批进行比较,然后过滤结果:
key type
ccc 0
相邻的两个批次,最后一个批次的数据(类型为0)必须是前一个批次中的(类型为1),当前批次如下:
key type
aaa 0
aaa 1
然后是第三批:
key type
ddd 1
eee 0
筛选结果为空
如何使用Spark Streaming来做到这一点?
谢谢
https://stackoverflow.com/questions/44402138
复制相似问题