with examples
2.Apache spark python api
一、PySpark RDD 行动操作简介
PySpark RDD行动操作(Actions) 是将值返回给驱动程序的...(10,1,2,4), (20,2,2,2), (20,1,2,3)) ]
1.count()
该操作不接受参数,返回一个long类型值,代表rdd的元素个数
pyspark.RDD.count...…>;
pyspark.RDD.reduce
print("reduce_test\n",flat_rdd_test.reduce(lambda x, y: x+y))
[(10,1,2,3,10,1,2,4,10,1,2,4,20,2,2,2,20,1,2,3...和map类似,但是由于foreach是行动操作,所以可以执行一些输出类的函数,比如print操作
pyspark.RDD.foreach
10.countByValue()
将此 RDD 中每个唯一值的计数作为...('zeroV$_', lambda x,y: x+y))
rdd2的分区是1,则初始值只会出现2次:
'ZeroV$_ZeroV$_A_a#B_b#C_c#D_d#'
rdd3的分区是4,则初始值会出现