类型 RDD 对象 数据 中 相同 键 key 对应的 值 value 进行分组 ,
然后 , 按照 开发者 提供的 算子 ( 逻辑 / 函数 ) 进行 聚合操作 ;
上面提到的 键值对 KV 型 的数据...", 12)
PySpark 中 , 将 二元元组 中
第一个元素 称为 键 Key ,
第二个元素 称为 值 Value ;
按照 键 Key 分组 , 就是按照 二元元组 中的 第一个元素 的值进行分组...Y ;
具体操作方法是 : 先将相同 键 key 对应的 值 value 列表中的元素进行 reduce 操作 , 返回一个减少后的值,并将该键值对存储在RDD中 ;
2、RDD#reduceByKey...3), ("Jerry", 12), ("Jerry", 21)]
对 值 Value 进行的聚合操作就是相加 , 也就是把同一个 键 Key 下的多个 Value 值 进行相加操作 ,
# 应用 reduceByKey...Key 为单词 , 值 Value 为 数字 1 ,
对上述 二元元组 列表 进行 聚合操作 , 相同的 键 Key 对应的 值 Value 进行相加 ;
2、代码示例
首先 , 读取文件 , 将 文件转为