2.宽操作
二.常见的转换操作表 & 使用例子
0.创建一个示例rdd, 后续的例子基本以此例展开
1....`coalesce( )`
10.`cache( )`
11....由于RDD本质上是不可变的,转换操作总是创建一个或多个新的RDD而不更新现有的RDD,因此,一系列RDD转换创建了一个RDD谱系。...rdd.collect())
输出为:
[(10,1,2,3), (10,1,2,4), (10,1,2,4)]
[(20,2,2,2), (20,1,2,3)]
4.union()
类似于sql...中的union函数,就是将两个RDD执行合并操作;
pyspark.RDD.union
但是pyspark中的union操作似乎不会自动去重,如果需要去重就使用后面讲的distinct
# the