pyspark.RDD.collect
3.take()
返回RDD的前n个元素(无特定顺序)
(仅当预期结果数组较小时才应使用此方法,因为所有数据都已加载到驱动程序的内存中)
pyspark.RDD.take...3]个位置的数字为顺序
5.takeSample(withReplacement, num, seed=None)
返回此 RDD 的固定大小的采样子集
(仅当预期结果数组较小时才应使用此方法,因为所有数据都已加载到驱动程序的内存中...), (20,2,2,2), (10,1,2,3)]
6.top(num, key=None)
返回RDD的前n个元素(按照降序输出, 排序方式由元素类型决定)
(仅当预期结果数组较小时才应使用此方法...而不是只使用一次
'''
① 在每个节点应用fold:初始值zeroValue + 分区内RDD元素
② 获得各个partition的聚合值之后,对这些值再进行一次聚合,同样也应用zeroValue;...)
12.aggregate(zeroValue, seqOp, combOp)
使用给定的函数和初始值,对每个分区的聚合进行聚合
(这里同样是对每个分区,初始值的使用规则和fold是一样的,对每个分区都采用