传统的单机系统,虽然可以多核共享内存、磁盘等资源,但是当计算与存储能力无法满足大规模数据处理的需要时,面对自身CPU与存储无法扩展的先天限制,单机系统就力不从心了。
1.分布式系统的架构
所谓的分布式系统,即为在网络互连的多个计算单元执行任务的软硬件系统,一般包括分布式操作系统、分布式数据库系统、分布式应用程序等。本书介绍的Spark分布式计算框架,可以看作分布式软件系统的组成部分,基于Spark,开发者可以编写分布式计算程序。
直观来看,大规模分布式系统由许多计算单元构成,每个计算单元之间松耦合。同时,每个计算单元都包含自己的CPU、内存、总线及硬盘等私有计算资源。这种分布式结构的最大特点在于不共享资源,与此同时,计算节点可以无限制扩展,计算能力和存储能力也因而得到巨大增长。但是由于分布式架构在资源共享方面的先天缺陷,开发者在书写和优化程序时应引起注意。分布式系统架构如图1-2所示。
[插图]
图1-2 分布式系统架构图
为了减少网络I/O开销,分布式计算的一个核心原则是数据应该尽量做到本地计算。在计算过程中,每个计算单元之间需要传输信息,因此在信息传输较少时,分布式系统可以利用资源无限扩展的优势达到高效率,这也是分布式系统的优势。目前分布式系统在数据挖掘和决策支持等方面有着广泛的应用。
Spark正是基于这种分布式并行架构而产生,也可以利用分布式架构的优势,根据需要,对计算能力和存储能力进行扩展,以应对处理海量数据带来的挑战。同时,Spark的快速及容错等特性,让数据处理分析显得游刃有余。
Spark架构采用了分布式计算中的Master-Slave模型。集群中运行Master进程的节点称为Master,同样,集群中含有Worker进程的节点为Slave。Master负责控制整个集群的运行;Worker节点相当于分布式系统中的计算节点,它接收Master节点指令并返回计算进程到Master; Executor负责任务的执行;Client是用户提交应用的客户端;Driver负责协调提交后的分布式应用。具体架构如图1-3所示。
[插图]
图1-3 Spark架构
在Spark应用的执行过程中,Driver和Worker是相互对应的。Driver是应用逻辑执行的起点,负责Task任务的分发和调度;Worker负责管理计算节点并创建Executor来并行处理Task任务。Task执行过程中所需的文件和包由Driver序列化后传输给对应的Worker节点,Executor对相应分区的任务进行处理。
下面介绍Spark架构中的组件。
1)Client:提交应用的客户端。
2)Driver:执行Application中的main函数并创建SparkContext。
3)ClusterManager:在YARN模式中为资源管理器。在Standalone模式中为Master(主节点),控制整个集群。
4)Worker:从节点,负责控制计算节点。启动Executor或Driver,在YARN模式中为NodeManager。
5)Executor:在计算节点上执行任务的组件。
6)SparkContext:应用的上下文,控制应用的生命周期。
7)RDD:弹性分布式数据集,Spark的基本计算单元,一组RDD可形成有向无环图。
8)DAG Scheduler:根据应用构建基于Stage的DAG,并将Stage提交给Task Scheduler。
9)Task Scheduler:将Task分发给Executor执行。
10)SparkEnv:线程级别的上下文,存储运行时重要组件的应用,具体如下:
①SparkConf:存储配置信息。
②BroadcastManager:负责广播变量的控制及元信息的存储。
③BlockManager:负责Block的管理、创建和查找。
④MetricsSystem:监控运行时的性能指标。
⑤MapOutputTracker:负责shuffle元信息的存储。
Spark架构揭示了Spark的具体流程如下:
1)用户在Client提交了应用。
2)Master找到Worker,并启动Driver。
3)Driver向资源管理器(YARN模式)或者Master(Standalone模式)申请资源,并将应用转化为RDD Graph。
4)DAG Scheduler将RDD Graph转化为Stage的有向无环图提交给Task Scheduler。
5)Task Scheduler提交任务给Executor执行。
下面举例说明Spark的运行逻辑,如图1-4所示,在Action算子被触发之后,所有累积的算子会形成一个有向无环图DAG。Spark会根据RDD之间不同的依赖关系形成Stage,每个Stage都包含一系列函数执行流水线。图1-4中A、B、C、D、E、F为不同的RDD, RDD内的方框为RDD的分区。
[插图]
图1-4 Spark执行RDD Graph
图1-4中的运行逻辑如下:
1)数据从HDFS输入Spark。
2)RDD A、RDD C经过flatMap与Map操作后,分别转换为RDD B和RDD D。
3)RDD D经过reduceByKey操作转换为RDD E。
4)RDD B与RDD E进行join操作转换为RDD F。
5)RDD F通过函数saveAsSequenceFile输出保存到HDFS中。