因为Reduce task需要跨节点去拉在分布在不同节点上的Map task计算结果,这一个过程是需要有磁盘IO消耗以及数据网络传输的消耗的,所以需要根据实际数据情况进行适当调整。...: 合并两个RDD
rdd = sc.parallelize([1, 1, 2, 3])
print(rdd.union(rdd).collect())
# [1, 1, 2, 3, 1, 1, 2,.../写入数据库
这里的保存数据主要是保存到Hive中的栗子,主要包括了overwrite、append等方式。...唯一的区别是会先序列化,节约内存。
DISK_ONLY 使用未序列化的Java对象格式,将数据全部写入磁盘文件中。一般不推荐使用。...假如某个节点挂掉,节点的内存或磁盘中的持久化数据丢失了,那么后续对RDD计算时还可以使用该数据在其他节点上的副本。如果没有副本的话,就只能将这些数据从源头处重新计算一遍了。一般也不推荐使用。
2.