上一次的计算结果 , 再次对新的 RDD 对象中的数据进行处理 , 执行上述若干次计算 , 会 得到一个最终的 RDD 对象 , 其中就是数据处理结果 , 将其保存到文件中 , 或者写入到数据库中 ;...;
print("RDD 元素: ", rdd.collect())
完整代码示例 :
# 创建一个包含列表的数据
data = [1, 2, 3, 4, 5]
# 将数据转换为 RDD 对象
rdd...")
然后 , 创建了一个 SparkContext 对象 , 传入 SparkConf 实例对象作为参数 ;
# 创建 PySpark 执行环境 入口对象
sparkContext = SparkContext...(conf=sparkConf)
再后 , 创建一个包含整数的简单列表 ;
# 创建一个包含列表的数据
data = [1, 2, 3, 4, 5]
再后 , 并使用 parallelize() 方法将其转换为...= SparkContext(conf=sparkConf)
# 打印 PySpark 版本号
print("PySpark 版本号 : ", sparkContext.version)
# 创建一个包含列表的数据