专栏首页Albert陈凯1.1.3 Spark架构与单机分布式系统架构对比

1.1.3 Spark架构与单机分布式系统架构对比

传统的单机系统,虽然可以多核共享内存、磁盘等资源,但是当计算与存储能力无法满足大规模数据处理的需要时,面对自身CPU与存储无法扩展的先天限制,单机系统就力不从心了。

1.分布式系统的架构

所谓的分布式系统,即为在网络互连的多个计算单元执行任务的软硬件系统,一般包括分布式操作系统、分布式数据库系统、分布式应用程序等。本书介绍的Spark分布式计算框架,可以看作分布式软件系统的组成部分,基于Spark,开发者可以编写分布式计算程序。

直观来看,大规模分布式系统由许多计算单元构成,每个计算单元之间松耦合。同时,每个计算单元都包含自己的CPU、内存、总线及硬盘等私有计算资源。这种分布式结构的最大特点在于不共享资源,与此同时,计算节点可以无限制扩展,计算能力和存储能力也因而得到巨大增长。但是由于分布式架构在资源共享方面的先天缺陷,开发者在书写和优化程序时应引起注意。分布式系统架构如图1-2所示。

[插图]

图1-2 分布式系统架构图

为了减少网络I/O开销,分布式计算的一个核心原则是数据应该尽量做到本地计算。在计算过程中,每个计算单元之间需要传输信息,因此在信息传输较少时,分布式系统可以利用资源无限扩展的优势达到高效率,这也是分布式系统的优势。目前分布式系统在数据挖掘和决策支持等方面有着广泛的应用。

Spark正是基于这种分布式并行架构而产生,也可以利用分布式架构的优势,根据需要,对计算能力和存储能力进行扩展,以应对处理海量数据带来的挑战。同时,Spark的快速及容错等特性,让数据处理分析显得游刃有余。

  1. Spark架构

Spark架构采用了分布式计算中的Master-Slave模型。集群中运行Master进程的节点称为Master,同样,集群中含有Worker进程的节点为Slave。Master负责控制整个集群的运行;Worker节点相当于分布式系统中的计算节点,它接收Master节点指令并返回计算进程到Master; Executor负责任务的执行;Client是用户提交应用的客户端;Driver负责协调提交后的分布式应用。具体架构如图1-3所示。

[插图]

图1-3 Spark架构

在Spark应用的执行过程中,Driver和Worker是相互对应的。Driver是应用逻辑执行的起点,负责Task任务的分发和调度;Worker负责管理计算节点并创建Executor来并行处理Task任务。Task执行过程中所需的文件和包由Driver序列化后传输给对应的Worker节点,Executor对相应分区的任务进行处理。

下面介绍Spark架构中的组件。

1)Client:提交应用的客户端。

2)Driver:执行Application中的main函数并创建SparkContext。

3)ClusterManager:在YARN模式中为资源管理器。在Standalone模式中为Master(主节点),控制整个集群。

4)Worker:从节点,负责控制计算节点。启动Executor或Driver,在YARN模式中为NodeManager。

5)Executor:在计算节点上执行任务的组件。

6)SparkContext:应用的上下文,控制应用的生命周期。

7)RDD:弹性分布式数据集,Spark的基本计算单元,一组RDD可形成有向无环图。

8)DAG Scheduler:根据应用构建基于Stage的DAG,并将Stage提交给Task Scheduler。

9)Task Scheduler:将Task分发给Executor执行。

10)SparkEnv:线程级别的上下文,存储运行时重要组件的应用,具体如下:

①SparkConf:存储配置信息。

②BroadcastManager:负责广播变量的控制及元信息的存储。

③BlockManager:负责Block的管理、创建和查找。

④MetricsSystem:监控运行时的性能指标。

⑤MapOutputTracker:负责shuffle元信息的存储。

Spark架构揭示了Spark的具体流程如下:

1)用户在Client提交了应用。

2)Master找到Worker,并启动Driver。

3)Driver向资源管理器(YARN模式)或者Master(Standalone模式)申请资源,并将应用转化为RDD Graph。

4)DAG Scheduler将RDD Graph转化为Stage的有向无环图提交给Task Scheduler。

5)Task Scheduler提交任务给Executor执行。

  1. Spark运行逻辑

下面举例说明Spark的运行逻辑,如图1-4所示,在Action算子被触发之后,所有累积的算子会形成一个有向无环图DAG。Spark会根据RDD之间不同的依赖关系形成Stage,每个Stage都包含一系列函数执行流水线。图1-4中A、B、C、D、E、F为不同的RDD, RDD内的方框为RDD的分区。

[插图]

图1-4 Spark执行RDD Graph

图1-4中的运行逻辑如下:

1)数据从HDFS输入Spark。

2)RDD A、RDD C经过flatMap与Map操作后,分别转换为RDD B和RDD D。

3)RDD D经过reduceByKey操作转换为RDD E。

4)RDD B与RDD E进行join操作转换为RDD F。

5)RDD F通过函数saveAsSequenceFile输出保存到HDFS中。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Spark生态系统BDAS介绍

    1.2 Spark生态系统BDAS 目前,Spark已经发展成为包含众多子项目的大数据计算平台。伯克利将Spark的整个生态系统称为伯克利数据分析栈(BDAS...

    Albert陈凯
  • 第三章 Spark机制与原理

    循序渐进学Spark 本书前面几章分别介绍了Spark的生态系统、Spark运行模式及Spark的核心概念RDD和基本算子操作等重要基础知识。 本章重点讲解Sp...

    Albert陈凯
  • Apache Spark常见的三大误解

    最近几年关于Apache Spark框架的声音是越来越多,而且慢慢地成为大数据领域的主流系统。最近几年Apache Spark和Apache Hadoop的Go...

    Albert陈凯
  • Spark 面试题系列-1

    Spark SQL 比 Hadoop Hive 快,是有一定条件的,而且不是 Spark SQL 的引擎比 Hive 的引擎快,相反,Hive 的 HQL 引擎...

    runzhliu
  • Spark SQL的几个里程碑!

    官方版本是spark 1.0.0引入的Spark SQL模块。当时这个模块的核心实际上就是一种新类型的RDD,叫做SchemaRDD。SchemaRDD就是类型...

    Spark学习技巧
  • 打印机设置(PrintDialog)、页面设置(PageSetupDialog) 及 RDLC报表如何选择指定打印机

    如果一台电脑同时连接多个打印机,而且每个打印机使用的纸张大小各不相同(比如:票据打印钱用的小票专用张,办公打印机用的是A4标准纸),在处理打印类的需求时,如果不...

    菩提树下的杨过
  • 卷积神经网络学习笔记

    1.卷积神经网络的图像识别原理: 通过过滤函数 来描绘出图像的边界: 过滤函数和图像相同区域的数值进行相乘,得到新的图像, 新图像则只剩下边图像。 cros...

    企鹅号小编
  • 服务器配置java

    _淡定_
  • 99%的程序都没有考虑的网络异常

    绝大多数程序只考虑了接口正常工作的场景,而用户在使用我们的产品时遇到的各类异常,全都丢在看似 ok 的 try catch 中。

    猫哥学前班
  • 不用加减乘除做加法

    题目:写一个函数,求两个整数之和,要求在函数体内不得使用+、-、×、÷四则运算符号。 分析: 第一步:不考虑进位对每一位相加。0加0、1加1的结果都是0,0加1...

    猿人谷

扫码关注云+社区

领取腾讯云代金券