它应用一个具名函数或者匿名函数,对数据集内的所有元素执行同一操作。...union函数,就是将两个RDD执行合并操作;
pyspark.RDD.union
但是pyspark中的union操作似乎不会自动去重,如果需要去重就使用后面讲的distinct
# the example...之后就会消掉一个:
[(10,1,2,3), (10,1,2,4)]
6.groupBy()
对元素进行分组,可以是具名函数,也可以是匿名,用来确定对所有元素进行分组的键,或者指定用于对元素进行求值以确定其分组方式的表达式...small', [(10,1,2,3), (20,2,2,2), (20,1,2,3)]), ('big', [(10,1,2,4), (10,1,2,4)])]
下面再感受一下,这个groupBy() 中的是确定分组的...flat_rdd_test.groupBy(lambda x: x[0]==10)
print("groupby_2_明文\n", groupby_rdd_2.mapValues(list).collect())
这时候就是以匿名函数返回的布尔值作为分组的