Spark-RDD持久化

(1) persist算子

  • 使用方法:
var rdd = sc.textFile("test")
rdd = rdd.persist(StorageLevel.MEMORY_ONLY)
val count = rdd.count() //或者其他操作
  • StorageLevel说明:

StorageLevel的构造函数:

class StorageLevel private(
    private var _useDisk: Boolean, # 是否存入磁盘
    private var _useMemory: Boolean, # 是否存入内存
    private var _useOffHeap: Boolean, # 是否使用堆外内存
    private var _deserialized: Boolean, # 是否不进行序列化
    private var _replication: Int = 1 # 副本数(默认为1))

StorageLevel object中已经定义了几种代表RDD持久化的级别:

使用不同参数的组合构造的实例被预先定义为一些值,比如MEMORY_ONLY代表着不存入磁盘,存入内存,不使用堆外内存,不进行序列化,副本数为1,使用persisit()方法时把这些持久化的级别作为参数传入即可。

(2) cache算子

cache() = persist(StorageLevel.MEMORY_ONLY)

(3) checkpoint算子:可以把RDD持久化到HDFS

使用方法:

使用方法:
sc.setCheckpointDir("hdfs://...")
var rdd = sc.textFile("test")
rdd.checkpoint()
val count = rdd.count() //或者其他操作

checkpoint()执行原理:

  1. 当RDD的job执行完毕后,会从finalRDD从后往前回溯
  2. 当回溯到调用了checkpoint()方法的RDD后,会给这个RDD做一个标记
  3. Spark框架自动启动一个新的job,计算这个RDD的数据,然后把数据持久化到HDFS上
  4. 优化:对某个RDD执行checkpoint()之前,对该RDD执行cache(),这样的话,新启动的job只需要把内存中的数据上传到HDFS中即可,不需要重新计算。

(4) 关于这3个算子的几点说明

  1. 这3个算子都是Transformations类算子,需要Actions类算子触发才能执行
  2. cache 和 persist 算子的返回执行必须赋值给一个变量,在接下来的job中直接使用这个变量,那么就是使用了持久化的数据了,如果application中只有一个job,没有必要使用RDD持久化
  3. cache 和 persist 算子后不能立即紧跟action类算子,比如count算子,但是在下一行可以有action类算子
error : 
    cache().count()  
right : 
    rdd = rdd.cache()   
    rdd.count()
  1. checkpoint()算子执行后就切断了RDD之间的依赖 当业务逻辑很复杂时,RDD之间频繁转换,RDD的血统很长,如果中间某个RDD的数据丢失,还需要重新从头计算,如果对中间某个RDD调用了checkpoint()方法,把这个RDD上传到HDFS,同时让后面的RDD不再依赖于这个RDD,而是依赖于HDFS上的数据,那么下次计算会方便很多。
  2. checkpoint持久化到磁盘和persist持久化到磁盘的区别
  • persist()把RDD持久化到磁盘,这个RDD的持久化数据保存在Worker的工作目录下,且当整个application执行结束后,就会自动删除持久化的数据
  • checkpoint()持久化到指定的目录,可以是HDFS,而且永久保存

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏个人分享

SparkStreaming(源码阅读十二)

  要完整去学习spark源码是一件非常不容易的事情,但是咱可以积少成多嘛~那么,Spark Streaming是怎么搞的呢?

1362
来自专栏北京马哥教育

Spark:一个高效的分布式计算系统

马哥linux运维 | 最专业的linux培训机构 ---- 概述 什么是Spark Spark是UC Berkeley AMP lab所开源的类Hado...

4636
来自专栏行者悟空

Spark RDD的Action

1556
来自专栏涂小刚的专栏

【Spark教程】核心概念RDD

RDD全称叫做弹性分布式数据集(Resilient Distributed Datasets),它是一种分布式的内存抽象,表示一个只读的记录分区的集合,它只能通...

2K0
来自专栏行者悟空

SparkContext初始化过程

2224
来自专栏Jed的技术阶梯

Spark性能调优02-代码调优

代码调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以...

1822
来自专栏Java 源码分析

SparkStreaming 入门

2468
来自专栏牛肉圆粉不加葱

[Spark Q&A]如果中间输出RDD在内存放不下会怎么样?

这个问题其实问的 RDD 缓存机制。我们可以调用 persist() 或 cache()方法来缓存 RDD。Spark 的缓存是具有容错性的,如果 RDD 的任...

932
来自专栏个人分享

Spark作业调度

    Spark在任务提交时,主要存在于Driver和Executor的两个节点.

1991
来自专栏Albert陈凯

Spark系列课程-00xxSpark RDD持久化

我们这节课讲一下RDD的持久化 ? RDD的持久化 这段代码我们上午已经看过了,有瑕疵大家看出来了吗? 有什么瑕疵啊? 大家是否还记得我在第二节课的时候跟大...

4128

扫码关注云+社区

领取腾讯云代金券