(lambda x: x)
print("count_test2\n", rdd_flatmap_test.count())
# out
5
分析如下:
map并不去掉嵌套,所以相当于列表中的元素是一个...(5,4) 二维的tuple;
而flatMap会去掉一层嵌套,则相当于5个(4,)一维的tuple
2.collect()
返回一个由RDD中所有元素组成的列表(没有限制输出数量,所以要注意...))]
4.takeOrdered(num, key=None)
从一个按照升序排列的RDD,或者按照key中提供的方法升序排列的RDD, 返回前n个元素
(仅当预期结果数组较小时才应使用此方法,因为所有数据都已加载到驱动程序的内存中...), (10,1,2,4)]
7.first()
返回RDD的第一个元素,也是不考虑元素顺序
pyspark.RDD.first
print("first_test\n",flat_rdd_test.first...(20,1,2,3),1), ((20,2,2,2),1), ((10,1,2,4),2)]
11.fold(zeroValue, func)
使用给定的func和 初始值zeroV把RDD中的每个分区的元素聚合