如groupByKey,reduceByKey
对两个RDD基于key进行join和重组,如join(父RDD不是hash-partitioned )
需要进行分区,如partitionBy
Transformations...Array((A,1), (B,1), (A,2))
groupByKey([numTasks])
这个方法属于宽依赖的方法,针对所有的kv进行分组,可以把相同的k的聚合起来。...K,V)和(K,W)的数据集调用,返回相同的K,所组成的数据集。...(Int, Int))] = Array((A,(1,4)), (A,(1,5)))
cogroup(otherDataset, [numTasks])
在类型为(K,V)和(K,W)的数据集上调用,...返回一个 (K, (Seq[V], Seq[W]))元组的数据集。