用于将一个 RDD 转换/更新为另一个。...10,1,2,4)]
6.groupBy()
对元素进行分组,可以是具名函数,也可以是匿名,用来确定对所有元素进行分组的键,或者指定用于对元素进行求值以确定其分组方式的表达式...._2.mapValues(list).collect())
这时候就是以匿名函数返回的布尔值作为分组的 key【键】了
[('True', [(10,1,2,3), [(10,1,2,4), (10,1,2,4..."groupby_3_明文\n", groupby_rdd_3.mapValues(list).collect())
这时候就是以匿名函数返回的 x[0]的具体值 作为分组的 key【键】了
[(10,...,(要么就重新产生,要么就拿现有的值)
7.sortBy(,ascending=True, numPartitions=None)
将RDD按照参数选出的指定数据集的键进行排序
pyspark.RDD.sortBy