本文不涉及任何原理, 仅总结spark在处理的时候支持的所有操作, 方便后面使用的时候, 可以参照本文进行数据的处理.
以下函数整理, 基与Python中RDD对象....多个 V 转换为一个, 类型不变.将相同 key 的 value 通过自定义函数合成, 返回一个新的 (K, V) 数据集, 此时所有的相同 key 已经合并在一起了.
foldByKey 多个 V...与reduceByKey的区别是, 此函数可以设置一个初始值
aggregateByKey 多个 V 转换为一个, 类型可变, 可设初始值.针对(K, V)数据集, 将相同 key 的元素聚合为一个....统计每一个 key 的数量, 返回结果如: (K, 2)
countApproxDistinct 统计数据集中去重的元素个数, 根据精度不同, 其准确度不一定, 此方法返回的是一个大致的值.
max 结果中的最大值...计算元素的样本方差 (除以 n-1那个)
「保存结果」
saveAsTextFile 将结果输出到指定文件.