data_list = [ ((10,1,2,3), (10,1,2,4), (10,1,2,4), (20,2,2,2), (20,1,2,3)) ]
# 注意该列表中包含有两层tuple嵌套,相当于列表中的元素是一个...它应用一个具名函数或者匿名函数,对数据集内的所有元素执行同一操作。...10,1,2,3), (10,1,2,4), (10,1,2,4)]
[(20,2,2,2), (20,1,2,3)]
4.union()
类似于sql中的union函数,就是将两个RDD执行合并操作...,使用distinct之后就会消掉一个:
[(10,1,2,3), (10,1,2,4)]
6.groupBy()
对元素进行分组,可以是具名函数,也可以是匿名,用来确定对所有元素进行分组的键...object at 0x7f004ac053d0>)]
这时候我们只需要加一个 mapValues 操作即可,即将后面寄存器地址上的值用列表显示出来
print("groupby_1_明文\n", groupby_rdd