相当于sql中的按照key做连接。...有点类似于 select a.value,b.value from a inner join b on a.key = b.key;
举个例子
//创建第一个数据集
scala> var data1 =...",4)))
//创建第三个数据集
scala> var data3 = sc.parallelize(List(("A",4),("A",5)))
data1.join(data2).collect...//输出为 Array[(String, (Int, Int))] = Array((A,(1,4)))
data1.join(data3).collect
//输出为 Array[(String,...>
repartitionAndSortWithinPartitions(partitioner)
这个方法是在分区中按照key进行排序,这种方式比先分区再sort更高效,因为相当于在shuffle阶段就进行排序