二、Python 容器数据转 RDD 对象
1、RDD 转换
在 Python 中 , 使用 PySpark 库中的 SparkContext # parallelize 方法 , 可以将 Python...)
# 创建一个包含列表的数据
data = [1, 2, 3, 4, 5]
# 将数据转换为 RDD 对象
rdd = sparkContext.parallelize(data)
# 打印 RDD...5]
data2 = (1, 2, 3, 4, 5)
data3 = {1, 2, 3, 4, 5}
# 输出结果
rdd1 分区数量和元素: 12 , [1, 2, 3, 4, 5]
rdd2...分区数量和元素: 12 , [1, 2, 3, 4, 5]
rdd3 分区数量和元素: 12 , [1, 2, 3, 4, 5]
字典 转换后的 RDD 数据打印出来只有 键 Key ,...)
# 创建一个包含列表的数据
data1 = [1, 2, 3, 4, 5]
data2 = (1, 2, 3, 4, 5)
data3 = {1, 2, 3, 4, 5}
data4 = {"Tom