分布式计算引擎 ;
RDD 是 Spark 的基本数据单元 , 该 数据结构 是 只读的 , 不可写入更改 ;
RDD 对象 是 通过 SparkContext 执行环境入口对象 创建的 ;
SparkContext...二、Python 容器数据转 RDD 对象
1、RDD 转换
在 Python 中 , 使用 PySpark 库中的 SparkContext # parallelize 方法 , 可以将 Python...print("RDD 元素: ", rdd.collect())
完整代码示例 :
# 创建一个包含列表的数据
data = [1, 2, 3, 4, 5]
# 将数据转换为 RDD 对象
rdd...2, 3, 4, 5]
再后 , 并使用 parallelize() 方法将其转换为 RDD 对象 ;
# 将数据转换为 RDD 对象
rdd = sparkContext.parallelize(data...)
# 创建一个包含列表的数据
data = [1, 2, 3, 4, 5]
# 将数据转换为 RDD 对象
rdd = sparkContext.parallelize(data)
# 打印 RDD