数据 中 相同 键 key 对应的 值 value 进行分组 ,
然后 , 按照 开发者 提供的 算子 ( 逻辑 / 函数 ) 进行 聚合操作 ;
上面提到的 键值对 KV 型 的数据 , 指的是 二元元组..., 也就是 RDD 对象中存储的数据是 二元元组 ;
元组 可以看做为 只读列表 ;
二元元组 指的是 元组 中的数据 , 只有两个 , 如 :
("Tom", 18)
("Jerry", 12)
PySpark...中 , 将 二元元组 中
第一个元素 称为 键 Key ,
第二个元素 称为 值 Value ;
按照 键 Key 分组 , 就是按照 二元元组 中的 第一个元素 的值进行分组 ;
[("Tom",...18), ("Jerry", 12), ("Tom", 17), ("Jerry", 13)]
将上述列表中的 二元元组 进行分组 , 按照 二元元组 第一个元素进行分组 ,
("Tom", 18) 和..., 将 rdd 数据 的 列表中的元素 转为二元元组 , 第一个元素设置为 单词 字符串 , 第二个元素设置为 1
# 将 rdd 数据 的 列表中的元素 转为二元元组, 第二个元素设置为 1
rdd3