一、RDD#sortBy 方法
1、RDD#sortBy 语法简介
RDD#sortBy 方法 用于 按照 指定的 键 对 RDD 中的元素进行排序 , 该方法 接受一个 函数 作为 参数 , 该函数从...参数 : 设置 排序结果 ( 新的 RDD 对象 ) 中的 分区数 ;
当前没有接触到分布式 , 将该参数设置为 1 即可 , 排序完毕后是全局有序的 ;
返回值说明 : 返回一个新的 RDD...列表 , 列表中每个元素的 键 Key 为单词 , 值 Value 为 数字 1 ,
对上述 二元元组 列表 进行 聚合操作 , 相同的 键 Key 对应的 值 Value 进行相加 ;
将聚合后的结果的...'] = "D:/001_Develop/022_Python/Python39/python.exe"
# 创建 SparkConf 实例对象 , 该对象用于配置 Spark 任务
# setMaster...列表中的元素 转为二元元组, 第二个元素设置为 1
rdd3 = rdd2.map(lambda element: (element, 1))
print("转为二元元组效果 : ", rdd3.collect