类型 RDD 对象 数据 中 相同 键 key 对应的 值 value 进行分组 ,
然后 , 按照 开发者 提供的 算子 ( 逻辑 / 函数 ) 进行 聚合操作 ;
上面提到的 键值对 KV 型 的数据..., 指的是 二元元组 , 也就是 RDD 对象中存储的数据是 二元元组 ;
元组 可以看做为 只读列表 ;
二元元组 指的是 元组 中的数据 , 只有两个 , 如 :
("Tom", 18)
("Jerry...", 12)
PySpark 中 , 将 二元元组 中
第一个元素 称为 键 Key ,
第二个元素 称为 值 Value ;
按照 键 Key 分组 , 就是按照 二元元组 中的 第一个元素 的值进行分组..."Tom", 18) 和 ("Tom", 17) 元组分为一组 , 在这一组中 , 将 18 和 17 两个数据进行聚合 , 如 : 相加操作 , 最终聚合结果是 35 ;
("Jerry", 12)...两个方法结合使用的结果与执行顺序无关 ;
可重入性 ( commutativity ) : 在多任务环境下 , 一个方法可以被多个任务调用 , 而不会出现数据竞争或状态错误的问题 ;
以便在并行计算时能够正确地聚合值列表