读取数据时 , 通过将数据拆分为多个分区 , 以便在 服务器集群 中进行并行处理 ;
每个 RDD 数据分区 都可以在 服务器集群 中的 不同服务器节点 上 并行执行 计算任务 , 可以提高数据处理速度...;
2、RDD 中的数据存储与计算
PySpark 中 处理的 所有的数据 ,
数据存储 : PySpark 中的数据都是以 RDD 对象的形式承载的 , 数据都存储在 RDD 对象中 ;
计算方法...上一次的计算结果 , 再次对新的 RDD 对象中的数据进行处理 , 执行上述若干次计算 , 会 得到一个最终的 RDD 对象 , 其中就是数据处理结果 , 将其保存到文件中 , 或者写入到数据库中 ;...)
最后 , 我们打印出 RDD 的分区数和所有元素 ;
# 打印 RDD 的分区数和元素
print("RDD 分区数量: ", rdd.getNumPartitions())
print("RDD...方法 , 打印出来的 RDD 数据形式 :
列表 / 元组 / 集合 转换后的 RDD 数据打印出来都是列表 ;
data1 = [1, 2, 3, 4, 5]
data2 = (1, 2, 3, 4