前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >1.1.3 Spark架构与单机分布式系统架构对比

1.1.3 Spark架构与单机分布式系统架构对比

作者头像
Albert陈凯
发布2018-04-04 15:46:16
8670
发布2018-04-04 15:46:16
举报
文章被收录于专栏:Albert陈凯Albert陈凯

传统的单机系统,虽然可以多核共享内存、磁盘等资源,但是当计算与存储能力无法满足大规模数据处理的需要时,面对自身CPU与存储无法扩展的先天限制,单机系统就力不从心了。

1.分布式系统的架构

所谓的分布式系统,即为在网络互连的多个计算单元执行任务的软硬件系统,一般包括分布式操作系统、分布式数据库系统、分布式应用程序等。本书介绍的Spark分布式计算框架,可以看作分布式软件系统的组成部分,基于Spark,开发者可以编写分布式计算程序。

直观来看,大规模分布式系统由许多计算单元构成,每个计算单元之间松耦合。同时,每个计算单元都包含自己的CPU、内存、总线及硬盘等私有计算资源。这种分布式结构的最大特点在于不共享资源,与此同时,计算节点可以无限制扩展,计算能力和存储能力也因而得到巨大增长。但是由于分布式架构在资源共享方面的先天缺陷,开发者在书写和优化程序时应引起注意。分布式系统架构如图1-2所示。

[插图]

图1-2 分布式系统架构图

为了减少网络I/O开销,分布式计算的一个核心原则是数据应该尽量做到本地计算。在计算过程中,每个计算单元之间需要传输信息,因此在信息传输较少时,分布式系统可以利用资源无限扩展的优势达到高效率,这也是分布式系统的优势。目前分布式系统在数据挖掘和决策支持等方面有着广泛的应用。

Spark正是基于这种分布式并行架构而产生,也可以利用分布式架构的优势,根据需要,对计算能力和存储能力进行扩展,以应对处理海量数据带来的挑战。同时,Spark的快速及容错等特性,让数据处理分析显得游刃有余。

  1. Spark架构

Spark架构采用了分布式计算中的Master-Slave模型。集群中运行Master进程的节点称为Master,同样,集群中含有Worker进程的节点为Slave。Master负责控制整个集群的运行;Worker节点相当于分布式系统中的计算节点,它接收Master节点指令并返回计算进程到Master; Executor负责任务的执行;Client是用户提交应用的客户端;Driver负责协调提交后的分布式应用。具体架构如图1-3所示。

[插图]

图1-3 Spark架构

在Spark应用的执行过程中,Driver和Worker是相互对应的。Driver是应用逻辑执行的起点,负责Task任务的分发和调度;Worker负责管理计算节点并创建Executor来并行处理Task任务。Task执行过程中所需的文件和包由Driver序列化后传输给对应的Worker节点,Executor对相应分区的任务进行处理。

下面介绍Spark架构中的组件。

1)Client:提交应用的客户端。

2)Driver:执行Application中的main函数并创建SparkContext。

3)ClusterManager:在YARN模式中为资源管理器。在Standalone模式中为Master(主节点),控制整个集群。

4)Worker:从节点,负责控制计算节点。启动Executor或Driver,在YARN模式中为NodeManager。

5)Executor:在计算节点上执行任务的组件。

6)SparkContext:应用的上下文,控制应用的生命周期。

7)RDD:弹性分布式数据集,Spark的基本计算单元,一组RDD可形成有向无环图。

8)DAG Scheduler:根据应用构建基于Stage的DAG,并将Stage提交给Task Scheduler。

9)Task Scheduler:将Task分发给Executor执行。

10)SparkEnv:线程级别的上下文,存储运行时重要组件的应用,具体如下:

①SparkConf:存储配置信息。

②BroadcastManager:负责广播变量的控制及元信息的存储。

③BlockManager:负责Block的管理、创建和查找。

④MetricsSystem:监控运行时的性能指标。

⑤MapOutputTracker:负责shuffle元信息的存储。

Spark架构揭示了Spark的具体流程如下:

1)用户在Client提交了应用。

2)Master找到Worker,并启动Driver。

3)Driver向资源管理器(YARN模式)或者Master(Standalone模式)申请资源,并将应用转化为RDD Graph。

4)DAG Scheduler将RDD Graph转化为Stage的有向无环图提交给Task Scheduler。

5)Task Scheduler提交任务给Executor执行。

  1. Spark运行逻辑

下面举例说明Spark的运行逻辑,如图1-4所示,在Action算子被触发之后,所有累积的算子会形成一个有向无环图DAG。Spark会根据RDD之间不同的依赖关系形成Stage,每个Stage都包含一系列函数执行流水线。图1-4中A、B、C、D、E、F为不同的RDD, RDD内的方框为RDD的分区。

[插图]

图1-4 Spark执行RDD Graph

图1-4中的运行逻辑如下:

1)数据从HDFS输入Spark。

2)RDD A、RDD C经过flatMap与Map操作后,分别转换为RDD B和RDD D。

3)RDD D经过reduceByKey操作转换为RDD E。

4)RDD B与RDD E进行join操作转换为RDD F。

5)RDD F通过函数saveAsSequenceFile输出保存到HDFS中。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017.06.30 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档