与 SparkSession
Pyspark学习笔记(四)弹性分布式数据集 RDD(上)
Pyspark学习笔记(四)弹性分布式数据集 RDD(下)
Pyspark学习笔记(五)RDD操作(一)...行动操作会触发之前的转换操作进行执行。
即只有当程序遇到行动操作的时候,前面的RDD谱系中的一系列的转换操作才会运算,并将由行动操作得到最后的结果。...二.常见的转换操作表 & 使用例子
0.初始的示例rdd,
我们这里仍然以上一篇博文中的rdd_test作为示例,这样能更好的与之前讲的内容联系起来
[ ((10,1,2,3), (10,1,2,4),...pyspark.RDD.collect
3.take()
返回RDD的前n个元素(无特定顺序)
(仅当预期结果数组较小时才应使用此方法,因为所有数据都已加载到驱动程序的内存中)
pyspark.RDD.take...(20,2,2,2), (20,1,2,3))]
4.takeOrdered(num, key=None)
从一个按照升序排列的RDD,或者按照key中提供的方法升序排列的RDD, 返回前n个元素
(仅当预期结果数组较小时才应使用此方法