本文不涉及任何原理, 仅总结spark在处理的时候支持的所有操作, 方便后面使用的时候, 可以参照本文进行数据的处理.
以下函数整理, 基与Python中RDD对象....K 在数据1中, 不再数据2中
zip 将两个数据集合并为(K, V)数据集, 两数据集元素数量必须一致
「分区操作」
coalesce 将 RDD 缩减到 n 个分区, 可指定是否乱序
repartition...方法名 说明
「数据合并」
reduce 通过自定义函数, 将数据集中所有元素合并为一个元素返回.
fold 将所有元素合并为一个....与reduce的区别是, 这个函数有个初始值
aggregate 将所有元素合并为一个元素. 在合并过程中可以携带自定义信息. 合并前后的数据类型可以不一样. ...对结果中的每个元素调用 toString 方法, 保存为一行数据.