常见的执行窄操作的一般有:map(),mapPartition(),flatMap(),filter(),union()
2.宽操作
这些计算数据存在于许多分区上,这意味着分区之间将有数据移动以执行更广泛的转换...data_list = [ ((10,1,2,3), (10,1,2,4), (10,1,2,4), (20,2,2,2), (20,1,2,3)) ]
# 注意该列表中包含有两层tuple嵌套,相当于列表中的元素是一个...()
对元素进行分组,可以是具名函数,也可以是匿名,用来确定对所有元素进行分组的键,或者指定用于对元素进行求值以确定其分组方式的表达式....pyspark.resultiterable.ResultIterable object at 0x7f004ac053d0>)]
这时候我们只需要加一个 mapValues 操作即可,即将后面寄存器地址上的值用列表显示出来..._2 = flat_rdd_test.groupBy(lambda x: x[0]==10)
print("groupby_2_明文\n", groupby_rdd_2.mapValues(list).