`persist( )
前言
提示:本篇博客讲的是RDD的操作中的转换操作,即 RDD Transformations
主要参考链接:
1.PySpark RDD Transformations with...(10,1,2,4), (10,1,2,4), (20,2,2,2), (20,1,2,3)]
5.distinct(numPartitions=None)
去除RDD中的重复值;带有参数numPartitions...,(要么就重新产生,要么就拿现有的值)
7.sortBy(,ascending=True, numPartitions=None)
将RDD按照参数选出的指定数据集的键进行排序
pyspark.RDD.sortBy...【并行化】 一节已经描述过
9.coalesce( )
重新分区,之前的博客的【并行化】一节已经描述过:
10.cache( )
缓存,之前博文RDD【持久化】一节已经描述过;
11.persist(...)
持久化,之前博文RDD【持久化】一节已经描述过
至此,Pyspark基本的转换操作【Transformation】就介绍完了。