data_list = [ ((10,1,2,3), (10,1,2,4), (10,1,2,4), (20,2,2,2), (20,1,2,3)) ]
# 注意该列表中包含有两层tuple嵌套,相当于列表中的元素是一个...union函数,就是将两个RDD执行合并操作;
pyspark.RDD.union
但是pyspark中的union操作似乎不会自动去重,如果需要去重就使用后面讲的distinct
# the example...中的重复值;带有参数numPartitions,默认值为None,可以对去重后的数据重新分区;
pyspark.RDD.distinct
# the example of distinct
distinct_key1...if sum(seq) > 6:
return "big"
else
return "small"
# 下面这两种写法结果都是一样的
groupby_rdd...pyspark.resultiterable.ResultIterable object at 0x7f004ac053d0>)]
这时候我们只需要加一个 mapValues 操作即可,即将后面寄存器地址上的值用列表显示出来