初始化
我们用元素类型为tuple元组的数组初始化我们的RDD,这里,每个tuple的第一个值将作为键,而第二个元素将作为值。...运算可以实现类似数据库的内连接,将两个RDD按照相同的key值join起来,kvRDD1与kvRDD2的key值唯一相同的是3,kvRDD1中有两条key值为3的数据(3,4)和(3,6),而kvRDD2...中只有一条key值为3的数据(3,8),所以join的结果是(3,(4,8)) 和(3,(6,8)):
print (kvRDD1.join(kvRDD2).collect())
输出为:
[(3, (....leftOuterJoin(kvRDD2).collect())
输出为:
[(1, (2, None)), (3, (4, 8)), (3, (6, 8)), (5, (6, None))]
右外连接...MEMORY_AND_DISK_SER 与MEMORY_ONLY_SER相似, 区别是但内存不足时,存储在磁盘上而不是每次重新计算。