RDD 中的每个元素提取 排序键 ;
根据 传入 sortBy 方法 的 函数参数 和 其它参数 , 将 RDD 中的元素按 升序 或 降序 进行排序 , 同时还可以指定 新的 RDD 对象的 分区数..., 统计文件中单词的个数并排序 ;
思路 :
先 读取数据到 RDD 中 ,
然后 按照空格分割开 再展平 , 获取到每个单词 ,
根据上述单词列表 , 生成一个 二元元组 列表 , 列表中每个元素的...进行排序 , 按照升序进行排序 ;
2、代码示例
对 RDD 数据进行排序的核心代码如下 :
# 对 rdd4 中的数据进行排序
rdd5 = rdd4.sortBy(lambda element:...1 ;
排序后的结果为 :
[('Jack', 2), ('Jerry', 3), ('Tom', 4)]
代码示例 :
"""
PySpark 数据处理
"""
# 导入 PySpark 相关包...rdd4 = rdd3.reduceByKey(lambda a, b: a + b)
print("统计单词 : ", rdd4.collect())
# 对 rdd4 中的数据进行排序
rdd5