`aggregate(zeroValue, seqOp, combOp)`
前言
提示:本篇博客讲的是RDD的操作中的行动操作,即 RDD Action
主要参考链接:
1.PySpark RDD Actions...pyspark.RDD.collect
3.take()
返回RDD的前n个元素(无特定顺序)
(仅当预期结果数组较小时才应使用此方法,因为所有数据都已加载到驱动程序的内存中)
pyspark.RDD.take...和map类似,但是由于foreach是行动操作,所以可以执行一些输出类的函数,比如print操作
pyspark.RDD.foreach
10.countByValue()
将此 RDD 中每个唯一值的计数作为...(20,1,2,3),1), ((20,2,2,2),1), ((10,1,2,4),2)]
11.fold(zeroValue, func)
使用给定的func和 初始值zeroV把RDD中的每个分区的元素聚合...而不是只使用一次
'''
① 在每个节点应用fold:初始值zeroValue + 分区内RDD元素
② 获得各个partition的聚合值之后,对这些值再进行一次聚合,同样也应用zeroValue;