, 其中就是数据处理结果 , 将其保存到文件中 , 或者写入到数据库中 ;
二、Python 容器数据转 RDD 对象
1、RDD 转换
在 Python 中 , 使用 PySpark 库中的 SparkContext...# parallelize 方法 , 可以将 Python 容器数据 转换为 PySpark 的 RDD 对象 ;
PySpark 支持下面几种 Python 容器变量 转为 RDD 对象 :
列表..., 创建一个包含整数的简单列表 ;
# 创建一个包含列表的数据
data = [1, 2, 3, 4, 5]
再后 , 并使用 parallelize() 方法将其转换为 RDD 对象 ;
# 将数据转换为...容器转 RDD 对象 ( 列表 / 元组 / 集合 / 字典 / 字符串 )
除了 列表 list 之外 , 还可以将其他容器数据类型 转换为 RDD 对象 , 如 : 元组 / 集合 / 字典 /...RDD 对象
----
调用 SparkContext#textFile 方法 , 传入 文件的 绝对路径 或 相对路径 , 可以将 文本文件 中的数据 读取并转为 RDD 数据 ;
文本文件数据 :