开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

2021年大数据Spark - Lanson

共 50 篇文章

1

2021年大数据Spark（一）：框架概述

2

2021年大数据Spark（二）：四大特点

3

2021年大数据Spark（三）：框架模块初步了解

4

2021年大数据Spark（四）：三种常见的运行模式

5

2021年大数据Spark（五）：大环境搭建本地模式 Local

6

2021年大数据Spark（六）：环境搭建集群模式 Standalone

7

2021年大数据Spark（七）：应用架构基本了解

8

2021年大数据Spark（八）：环境搭建集群模式 Standalone HA

9

2021年大数据Spark（九）：Spark On Yarn两种模式总结

10

2021年大数据Spark（十）：环境搭建集群模式 Spark on YARN

11

2021年大数据Spark（十一）：应用开发基于IDEA集成环境

12

2021年大数据Spark（十二）：Spark Core的RDD详解

13

2021年大数据Spark（十三）：Spark Core的RDD创建

14

2021年大数据Spark（十四）：Spark Core的RDD操作

15

2021年大数据Spark（十五）：Spark Core的RDD常用算子

16

2021年大数据Spark（十六）：Spark Core的RDD算子练习

17

2021年大数据Spark（十七）：Spark Core的RDD持久化

18

2021年大数据Spark（十八）：Spark Core的RDD Checkpoint

19

2021年大数据Spark（十九）：Spark Core的共享变量

20

2021年大数据Spark（二十）：Spark Core外部数据源引入

21

2021年大数据Spark（二十一）：Spark Core案例-SogouQ日志分析

22

2021年大数据Spark（二十二）：内核原理

23

2021年大数据Spark（二十三）：SparkSQL 概述

24

2021年大数据Spark（二十四）：SparkSQL数据抽象

25

2021年大数据Spark（二十五）：SparkSQL的RDD、DF、DS相关操作

26

2021年大数据Spark（二十六）：SparkSQL数据处理分析

27

2021年大数据Spark（二十七）：SparkSQL案例一花式查询和案例二WordCount

28

2021年大数据Spark（二十八）：SparkSQL案例三电影评分数据分析

29

2021年大数据Spark（二十九）：SparkSQL案例四开窗函数

30

2021年大数据Spark（三十）：SparkSQL自定义UDF函数

31

2021年大数据Spark（三十一）：Spark On Hive

32

2021年大数据Spark（三十二）：SparkSQL的External DataSource

33

2021年大数据Spark（三十三）：SparkSQL分布式SQL引擎

34

2021年大数据Spark（三十四）：Spark Streaming概述

35

2021年大数据Spark（三十五）：SparkStreaming数据抽象 DStream

36

2021年大数据Spark（三十六）：SparkStreaming实战案例一 WordCount

37

2021年大数据Spark（三十七）：SparkStreaming实战案例二 UpdateStateByKey

38

2021年大数据Spark（三十八）：SparkStreaming实战案例三状态恢复扩展

39

2021年大数据Spark（三十九）：SparkStreaming实战案例四窗口函数

40

2021年大数据Spark（四十）：SparkStreaming实战案例五 TopN-transform

41

2021年大数据Spark（四十一）：SparkStreaming实战案例六自定义输出 foreachRDD

42

2021年大数据Spark（四十二）：SparkStreaming的Kafka快速回顾与整合说明

43

2021年大数据Spark（四十三）：SparkStreaming整合Kafka 0.10 开发使用

44

2021年大数据Spark（四十四）：Structured Streaming概述

45

2021年大数据Spark（四十五）：Structured Streaming Sources 输入源

46

2021年大数据Spark（四十六）：Structured Streaming Operations 操作

47

2021年大数据Spark（四十七）：Structured Streaming Sink 输出

48

2021年大数据Spark（四十八）：Structured Streaming 输出终端/位置

49

2021年大数据Spark（四十九）：Structured Streaming 整合 Kafka

50

2021年大数据Spark（五十）：Structured Streaming 案例一实时数据ETL架构

清单首页2021年大数据Spark - Lanson文章详情

清单「2021年大数据Spark - Lanson」 18/50

2021年大数据Spark（十八）：Spark Core的RDD Checkpoint

Lansonli·腾云先锋腾云先锋（TDP）成员

RDD Checkpoint

引入

RDD 数据可以持久化，但是持久化/缓存可以把数据放在内存中，虽然是快速的，但是也是最不可靠的；也可以把数据放在磁盘上，也不是完全可靠的！例如磁盘会损坏等。

Checkpoint的产生就是为了更加可靠的数据持久化，在Checkpoint的时候一般把数据放在在HDFS上，这就天然的借助了HDFS天生的高容错、高可靠来实现数据最大程度上的安全，实现了RDD的容错和高可用。

在Spark Core中对RDD做checkpoint，可以切断做checkpoint RDD的依赖关系，将RDD数据保存到可靠存储（如HDFS）以便数据恢复；

API

第一步:sc.setCheckpointDir("HDFS目录") //HDFS的目录

第二步:rdd.checkpoint //后续会被多次频繁使用到的RDD/很重要的RDD

代码演示

package cn.itcast.core

import org.apache.spark.{SparkConf, SparkContext}

/**
 * RDD数据Checkpoint设置，案例演示
 */
object SparkCkptTest {
  def main(args: Array[String]): Unit = {
    val sparkConf: SparkConf = new SparkConf()
      .setAppName(this.getClass.getSimpleName.stripSuffix("$"))
      .setMaster("local[*]")
    val sc: SparkContext = new SparkContext(sparkConf)
    sc.setLogLevel("WARN")

    // 设置检查点目录，将RDD数据保存到那个目录
    sc.setCheckpointDir("./ckp")

    // 读取文件数据
    val datasRDD = sc.textFile("data/input/words.txt")

    // 调用checkpoint函数，将RDD进行备份，需要RDD中Action函数触发
    datasRDD.checkpoint()
    datasRDD.count()

    //再次执行count函数, 此时从checkpoint读取数据
    datasRDD.count()

    // 应用程序运行结束，关闭资源
    sc.stop()
  }
}

总结：持久化和Checkpoint的区别

问题:

缓存持久化 VS Checkpoint 开发中用哪个?

答案:

缓存持久化(保证后续再次使用的速度) + Checkpoint(保证安全)

区别:

1）、存储位置

Persist 和 Cache 只能保存在本地的磁盘和内存中(或者堆外内存)；

Checkpoint 可以保存数据到 HDFS 这类可靠的存储上；

2）、生命周期

Cache和Persist的RDD会在程序结束后会被清除或者手动调用unpersist方法；

Checkpoint的RDD在程序结束后依然存在，不会被删除；

3）、Lineage(血统、依赖链、依赖关系)

Persist和Cache，不会丢掉RDD间的依赖链/依赖关系，因为这种缓存是不可靠的，如果出现了一些错误(例如 Executor 宕机)，需要通过回溯依赖链重新计算出来；

Checkpoint会斩断依赖链，因为Checkpoint会把结果保存在HDFS这类存储中，更加的安全可靠，一般不需要回溯依赖链；

举报