大数据处理中有一个典型的例子WordCount,类似与Hello World的作用,map阶段主要是将单词转换为(word,1)的形式,在reduce阶段则是将Key值相同的1累加求和,最终得到的结果就是单词的...Spark中pairRDD的两种方法groupByKey和reduceByKey
groupByKey
groupByKey对具有相同键的值进行分组,比如pairRDD={(1,2),(3,2),(1,7...)},调用groupByKey的结果为{(1,[2,7]),(3,2)},groupByKey后仍然是pairRDD,只不过k--v中的value值为的Iterator类型。...reduceByKey
合并具有相同键的值,和reduce相同的是它们都接收一个函数,并使用该函数对值进行合并。...仍然是刚才的那个例子,reduceByKey后获得的结果是{(1,9),(3,2)}.
reduceByKey和groupByKey
其实reduceByKey操作可以通过groupByKey和reduce