pyspark.RDD.collect
3.take()
返回RDD的前n个元素(无特定顺序)
(仅当预期结果数组较小时才应使用此方法,因为所有数据都已加载到驱动程序的内存中)
pyspark.RDD.take...和map类似,但是由于foreach是行动操作,所以可以执行一些输出类的函数,比如print操作
pyspark.RDD.foreach
10.countByValue()
将此 RDD 中每个唯一值的计数作为...(20,1,2,3),1), ((20,2,2,2),1), ((10,1,2,4),2)]
11.fold(zeroValue, func)
使用给定的func和 初始值zeroV把RDD中的每个分区的元素聚合...,然后把每个分区聚合结果再聚合;
聚合的过程其实和reduce类似,但是不满足交换律
这里有个细节要注意,fold是对每个分区(each partition)都会应用 zeroValue 进行聚合,...,对每个分区的聚合进行聚合
(这里同样是对每个分区,初始值的使用规则和fold是一样的,对每个分区都采用)
seqOp方法是先对每个分区操作,然后combOp对每个分区的聚合结果进行最终聚合
rdd_agg_test