的连接/集合操作
1.join-连接
对应于SQL中常见的JOIN操作
菜鸟教程网关于SQL连接总结性资料
Pyspark中的连接函数要求定义键,因为连接的过程是基于共同的字段(键)来组合两个RDD...中的记录,因此需要操作键值对RDD
rdd_1 = sc.parallelize([('USA', (1,2,3)), ('CHINA', (4,5,6)), ('RUSSIA', (7,8,9))])...两个RDD中各自包含的key为基准,能找到共同的Key,则返回两个RDD的值,找不到就各自返回各自的值,并以none****填充缺失的值
rdd_fullOuterJoin_test = rdd_1...要注意这个操作可能会产生大量的数据,一般还是不要轻易使用。...2.Union-集合操作
2.1 union
union(other)
官方文档:pyspark.RDD.union
转化操作union()把一个RDD追加到另一个RDD后面,两个RDD的结构并不一定要相同