: 大数据处理过程中使用的计算方法 , 也都定义在了 RDD 对象中 ;
计算结果 : 使用 RDD 中的计算方法对 RDD 中的数据进行计算处理 , 获得的结果数据也是封装在 RDD 对象中的 ;
PySpark...中 , 通过 SparkContext 执行环境入口对象 读取 基础数据到 RDD 对象中 , 调用 RDD 对象中的计算方法 , 对 RDD 对象中的数据进行处理 , 得到新的 RDD 对象 其中有...上一次的计算结果 , 再次对新的 RDD 对象中的数据进行处理 , 执行上述若干次计算 , 会 得到一个最终的 RDD 对象 , 其中就是数据处理结果 , 将其保存到文件中 , 或者写入到数据库中 ;...二、Python 容器数据转 RDD 对象
1、RDD 转换
在 Python 中 , 使用 PySpark 库中的 SparkContext # parallelize 方法 , 可以将 Python...;
# 创建一个包含列表的数据
data = [1, 2, 3, 4, 5]
再后 , 并使用 parallelize() 方法将其转换为 RDD 对象 ;
# 将数据转换为 RDD 对象
rdd =