前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布

Spark

原创
作者头像
大学里的混子
修改2019-03-12 10:29:47
5780
修改2019-03-12 10:29:47
举报
文章被收录于专栏:LeetCodeLeetCode

添加描述

在 Scala 中初始化 Spark

添加描述

最后,关闭 Spark 可以调用 SparkContext 的 stop() 方法,或者直接退出应用(比如通过

System.exit(0) 或者 sys.exit())。

添加描述

添加描述

用户可以使用两种方法创建 RDD: 读取一个外部数据集,或在驱动器程序里分发驱动器程

序中的对象集合( 比如 list 和 set)。

添加描述

添加描述

添加描述

添加描述

添加描述

添加描述

RDD

RDD(Resilient Distributed Datasets,弹性分布式数据集),是Spark最为核心的概念,自然也是理解Apache Spark 工作原理的最佳入口之一。

RDD的特点:

1. 是一个分区的只读记录的集合;

2. 一个具有容错机制的特殊集;

3. 只能通过在稳定的存储器或其他RDD上的确定性操作(转换)来创建;

4. 可以分布在集群的节点上,以函数式操作集合的方式,进行各种并行操作

相互依赖:

RDD之 所以为“弹性”的特点

1. 基于Lineage的高效容错(第n个节点出错,会从第n-1个节点恢复,血统容错);

2. Task如果失败会自动进行特定次数的重试(默认4次);

3. Stage如果失败会自动进行特定次数的重试(可以值运行计算失败的阶段),只计算失败的数据分片;

4. 数据调度弹性:DAG TASK 和资源管理无关;

5. checkpoint;

6. 自动的进行内存和磁盘数据存储的切换;

RDD五大特性

dataset -> RDD

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • RDD
  • RDD的特点:
  • RDD之 所以为“弹性”的特点
相关产品与服务
数据保险箱
数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档