1.窄操作
这些计算数据存在于单个分区上,这意味着分区之间不会有任何数据移动。...常见的执行窄操作的一般有:map(),mapPartition(),flatMap(),filter(),union()
2.宽操作
这些计算数据存在于许多分区上,这意味着分区之间将有数据移动以执行更广泛的转换...\n", rdd_map_test.collect())
相当于只从第一层 tuple 中取出了第0和第3个 子tuple, 输出为:
[((10,1,2,3), (20,2,2,2))]
2.flatMap...之后就会消掉一个:
[(10,1,2,3), (10,1,2,4)]
6.groupBy()
对元素进行分组,可以是具名函数,也可以是匿名,用来确定对所有元素进行分组的键,或者指定用于对元素进行求值以确定其分组方式的表达式...if sum(seq) > 6:
return "big"
else
return "small"
# 下面这两种写法结果都是一样的
groupby_rdd