前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >第三章 Spark机制与原理

第三章 Spark机制与原理

作者头像
Albert陈凯
发布2018-04-04 15:37:55
6160
发布2018-04-04 15:37:55
举报
文章被收录于专栏:Albert陈凯Albert陈凯

循序渐进学Spark

本书前面几章分别介绍了Spark的生态系统、Spark运行模式及Spark的核心概念RDD和基本算子操作等重要基础知识。

本章重点讲解Spark的主要机制原理,因为这是Spark程序得以高效执行的核心。

本章先从Application、job、stage和task等层次阐述Spark的调度逻辑,

并且介绍FIFO、FAIR等经典算法,

然后对Spark的重要组成模块:

I/O与通信控制模块、

容错模块及Shuffle模块做了深入的阐述。

其中,在Spark I/O模块中,数据以数据块的形式管理,存储在内存、磁盘或者Spark集群中的其他机器上。

Spark集群通信机制采用了AKKA通信框架,在集群机器中传递命令和状态信息。

另外,容错是分布式系统的一个重要特性,Spark采用了lineage与checkpoint机制来保证容错性。

Spark Shuffle模块借鉴了MapReduce的Shuffle机制,但在其基础上进行了改进与创新。

3.1 Spark应用执行机制分析

http://www.jianshu.com/p/4217446a87c4

3.2 Spark调度机制

http://www.jianshu.com/p/7f854512d254

3.3 Spark存储与I/O

http://www.jianshu.com/p/306b02760f4c

3.4 Spark通信机制

http://www.jianshu.com/p/f5ce9dbc1c3f

3.5 容错机制及依赖

http://www.jianshu.com/p/4f40ecfb5f04

3.6 Shuffle机制

http://www.jianshu.com/p/b1834e91f445

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017.06.30 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档