2.宽操作
二.常见的转换操作表 & 使用例子
0.创建一个示例rdd, 后续的例子基本以此例展开
1....由于RDD本质上是不可变的,转换操作总是创建一个或多个新的RDD而不更新现有的RDD,因此,一系列RDD转换创建了一个RDD谱系。...data_list = [ ((10,1,2,3), (10,1,2,4), (10,1,2,4), (20,2,2,2), (20,1,2,3)) ]
# 注意该列表中包含有两层tuple嵌套,相当于列表中的元素是一个...\n", rdd_map_test.collect())
相当于只从第一层 tuple 中取出了第0和第3个 子tuple, 输出为:
[((10,1,2,3), (20,2,2,2))]
2.flatMap...)]
3.filter()
一般是依据括号中的一个布尔型表达式,来筛选出满足为真的元素
pyspark.RDD.filter
# the example of filter
key1_rdd