1.1.3 Spark架构与单机分布式系统架构对比

传统的单机系统,虽然可以多核共享内存、磁盘等资源,但是当计算与存储能力无法满足大规模数据处理的需要时,面对自身CPU与存储无法扩展的先天限制,单机系统就力不从心了。

1.分布式系统的架构

所谓的分布式系统,即为在网络互连的多个计算单元执行任务的软硬件系统,一般包括分布式操作系统、分布式数据库系统、分布式应用程序等。本书介绍的Spark分布式计算框架,可以看作分布式软件系统的组成部分,基于Spark,开发者可以编写分布式计算程序。

直观来看,大规模分布式系统由许多计算单元构成,每个计算单元之间松耦合。同时,每个计算单元都包含自己的CPU、内存、总线及硬盘等私有计算资源。这种分布式结构的最大特点在于不共享资源,与此同时,计算节点可以无限制扩展,计算能力和存储能力也因而得到巨大增长。但是由于分布式架构在资源共享方面的先天缺陷,开发者在书写和优化程序时应引起注意。分布式系统架构如图1-2所示。

[插图]

图1-2 分布式系统架构图

为了减少网络I/O开销,分布式计算的一个核心原则是数据应该尽量做到本地计算。在计算过程中,每个计算单元之间需要传输信息,因此在信息传输较少时,分布式系统可以利用资源无限扩展的优势达到高效率,这也是分布式系统的优势。目前分布式系统在数据挖掘和决策支持等方面有着广泛的应用。

Spark正是基于这种分布式并行架构而产生,也可以利用分布式架构的优势,根据需要,对计算能力和存储能力进行扩展,以应对处理海量数据带来的挑战。同时,Spark的快速及容错等特性,让数据处理分析显得游刃有余。

  1. Spark架构

Spark架构采用了分布式计算中的Master-Slave模型。集群中运行Master进程的节点称为Master,同样,集群中含有Worker进程的节点为Slave。Master负责控制整个集群的运行;Worker节点相当于分布式系统中的计算节点,它接收Master节点指令并返回计算进程到Master; Executor负责任务的执行;Client是用户提交应用的客户端;Driver负责协调提交后的分布式应用。具体架构如图1-3所示。

[插图]

图1-3 Spark架构

在Spark应用的执行过程中,Driver和Worker是相互对应的。Driver是应用逻辑执行的起点,负责Task任务的分发和调度;Worker负责管理计算节点并创建Executor来并行处理Task任务。Task执行过程中所需的文件和包由Driver序列化后传输给对应的Worker节点,Executor对相应分区的任务进行处理。

下面介绍Spark架构中的组件。

1)Client:提交应用的客户端。

2)Driver:执行Application中的main函数并创建SparkContext。

3)ClusterManager:在YARN模式中为资源管理器。在Standalone模式中为Master(主节点),控制整个集群。

4)Worker:从节点,负责控制计算节点。启动Executor或Driver,在YARN模式中为NodeManager。

5)Executor:在计算节点上执行任务的组件。

6)SparkContext:应用的上下文,控制应用的生命周期。

7)RDD:弹性分布式数据集,Spark的基本计算单元,一组RDD可形成有向无环图。

8)DAG Scheduler:根据应用构建基于Stage的DAG,并将Stage提交给Task Scheduler。

9)Task Scheduler:将Task分发给Executor执行。

10)SparkEnv:线程级别的上下文,存储运行时重要组件的应用,具体如下:

①SparkConf:存储配置信息。

②BroadcastManager:负责广播变量的控制及元信息的存储。

③BlockManager:负责Block的管理、创建和查找。

④MetricsSystem:监控运行时的性能指标。

⑤MapOutputTracker:负责shuffle元信息的存储。

Spark架构揭示了Spark的具体流程如下:

1)用户在Client提交了应用。

2)Master找到Worker,并启动Driver。

3)Driver向资源管理器(YARN模式)或者Master(Standalone模式)申请资源,并将应用转化为RDD Graph。

4)DAG Scheduler将RDD Graph转化为Stage的有向无环图提交给Task Scheduler。

5)Task Scheduler提交任务给Executor执行。

  1. Spark运行逻辑

下面举例说明Spark的运行逻辑,如图1-4所示,在Action算子被触发之后,所有累积的算子会形成一个有向无环图DAG。Spark会根据RDD之间不同的依赖关系形成Stage,每个Stage都包含一系列函数执行流水线。图1-4中A、B、C、D、E、F为不同的RDD, RDD内的方框为RDD的分区。

[插图]

图1-4 Spark执行RDD Graph

图1-4中的运行逻辑如下:

1)数据从HDFS输入Spark。

2)RDD A、RDD C经过flatMap与Map操作后,分别转换为RDD B和RDD D。

3)RDD D经过reduceByKey操作转换为RDD E。

4)RDD B与RDD E进行join操作转换为RDD F。

5)RDD F通过函数saveAsSequenceFile输出保存到HDFS中。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CSDN技术头条

整合Kafka到Spark Streaming——代码示例和挑战

作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术...

3348
来自专栏Albert陈凯

大数据面试选择题hadoop

1.1. 下面哪个程序负责 HDFS 数据存储。 a)NameNode b)Jobtracker c)Datanode d)secondaryNa...

1.3K4
来自专栏Albert陈凯

课程主要内容Spark介绍

我们学习Spark首先要知道Spark是什么 ? image.png 这段内容呢,是老师从官网上摘抄下来的,Spark是一个快速的统一的大数据处理引擎 Spar...

3204
来自专栏IT派

10分钟大数据Hadoop基础入门

目前人工智能和大数据火热,使用的场景也越来越广,日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解。

1234
来自专栏数据库

爱炫耀的数据库老头儿

作者:刘欣 1 数据库老头儿 我们这个世界很大, 生活着很多人,形形色色,各怀绝技。但是被公认为最拽的一个却是数据库老头儿,年龄挺大,每天都要炫耀几遍他那关系型...

1980
来自专栏Albert陈凯

第三章 Spark机制与原理

循序渐进学Spark 本书前面几章分别介绍了Spark的生态系统、Spark运行模式及Spark的核心概念RDD和基本算子操作等重要基础知识。 本章重点讲解Sp...

3586
来自专栏用户画像

Spark DataFrame

DataFrame是一种不可变的分布式数据集,这种数据集被组织成指定的列,类似于关系数据库中的表。SchemaRDD作为Apache Spark 1.0版本中的...

2174
来自专栏编程

Spark踩坑记:Spark Streaming+kafka应用及调优

作者:肖力涛 前言 在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消...

2295
来自专栏王小雷

Hadoop YARN学习之核心概念(2)

Hadoop YARN学习之核心概念(2) 1. Hadoop 2.X YARN引入的新服务 1.1 新的ResourceManager纯碎作为资源调度器,是集...

26510
来自专栏恰童鞋骚年

Hadoop学习笔记—16.Pig框架学习

  Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过...

842

扫码关注云+社区

领取腾讯云代金券