本文不涉及任何原理, 仅总结spark在处理的时候支持的所有操作, 方便后面使用的时候, 可以参照本文进行数据的处理.
以下函数整理, 基与Python中RDD对象....与reduceByKey的区别是, 此函数可以设置一个初始值
aggregateByKey 多个 V 转换为一个, 类型可变, 可设初始值.针对(K, V)数据集, 将相同 key 的元素聚合为一个....函数对每个元素进行计算, 结果相同的值被分到一组, 返回 (K, V[])
groupByKey 根据数据的 key 进行编组. 在一个 (K, V) 的数据集上, 返回 (K, V[]) 的结果....与reduce的区别是, 这个函数有个初始值
aggregate 将所有元素合并为一个元素. 在合并过程中可以携带自定义信息. 合并前后的数据类型可以不一样. ...统计每一个 key 的数量, 返回结果如: (K, 2)
countApproxDistinct 统计数据集中去重的元素个数, 根据精度不同, 其准确度不一定, 此方法返回的是一个大致的值.
max 结果中的最大值