, 一个方法可以被多个任务调用 , 而不会出现数据竞争或状态错误的问题 ;
以便在并行计算时能够正确地聚合值列表 ;
二、代码示例 - RDD#reduceByKey 方法
----
1、代码示例
在下面的代码中..., 统计文件中单词的个数 ;
思路 :
先 读取数据到 RDD 中 ,
然后 按照空格分割开 再展平 , 获取到每个单词 ,
根据上述单词列表 , 生成一个 二元元组 列表 , 列表中每个元素的 键...Key 为单词 , 值 Value 为 数字 1 ,
对上述 二元元组 列表 进行 聚合操作 , 相同的 键 Key 对应的 值 Value 进行相加 ;
2、代码示例
首先 , 读取文件 , 将 文件转为...("word.txt")
# 内容为 ['Tom Jerry', 'Tom Jerry Tom', 'Jack Jerry']
然后 , 通过 flatMap 展平文件, 先按照 空格 切割每行数据为...字符串 列表 , 然后展平数据解除嵌套 ;
# 通过 flatMap 展平文件, 先按照 空格 切割每行数据为 字符串 列表
# 然后展平数据解除嵌套
rdd2 = rdd.flatMap(lambda