大数据技术，Spark任务调度原理四种集群部署模式介绍

文章来源：企鹅号 - 喵感数据

一、spark-submit任务提交机制

spark-submit \

--class org.apache.spark.examples.SparkPi \

--master spark://ns1.hadoop:7077 \

--executor-memory 1G \

--total-executor-cores 2 \

/usr/local/spark/examples/jars/spark-examples_2.11-2.1.1.jar

上面是spark在集群提交任务最常见的命令，其中：

--class是程序的主入口，和main方法类似。

--master 指定spark的运行模式，yarn、standalone等模式

--executor-memory 指定计算节点的内存大小，spark是基于内存运算的。

--total-executor-cores 指定运行任务的核数，你可以理解为线程数。

spark-submit提交应用程序

图中，四个重要的参数都是干嘛的呢？

driver：负责交接应用程序任务，并发送任务。我们提交任务都是在driver端进行的。

master：负责worker的管理与集群资源的调度。

worker：上报自己的资源状态、存活情况，启动并管理。

executor：负责执行任务，真正用来做计算的节点。

spark-submit提交任务的，启动计算的过程：

1，在driver端提交spark-submit任务，任务提交以后会向master申请资源。

2，master会启动worker，worker在启动executor，executor是真正用来计算任务的。

3，executor启动以后，反向连接driver。通过master->worker->executor反向找到driver在哪里。

4，driver生成taskset任务集，之后把任务发送给executor，executor启动计算程序。

5，executor拿到任务分区参数触发真正的计算。通过driver->executor->task拿到运算分区参数。

二、Spark的四种部署方式

我们在部署spark计算任务时，有四种方式，可以部署到一台计算机，也可以是多台(cluster)。

在计算大数据任务时，必须借助计算机的计算能力，计算机集群规模越大、计算能力就越强。当我们在本地开发调试时，只需要依赖本地计算机计算即可，因此可以使用spark的单机模式。

Spark的四种部署模式：

1、单机local模式

local模式就是运行在一台计算机上的模式，通常就是用于开发调式阶段，主要有三种用法：

local：所有计算都运行在一个线程当中，没有任何并行计算。

local[n]：指定使用几个线程来运行计算，比如local[5]就是运行5个worker线程。通常我们的cpu有几个core，就指定几个线程，最大化利用cpu的计算能力。

local[*]: 这种模式直接按照cpu最多cores来设置线程数。

2、多机器cluster模式

cluster模式是运行很多机器上，它又分为以下三种模式，区别在于谁去管理资源调度。

2.1、standalone模式

在standalone模式下，Spark会自己负责资源的管理调度。它将cluster中的机器分为master机器和worker机器，master通常只有一个，worker是负责做计算任务的。

2.2、mesos模式

使用Spark客户端直接连接Mesos，不需要额外构建Spark集群，在实际开发中，基本很少使用这种模式。

2.3、yarn模式

在生产开发中，一般都是采用Yarn来管理资源调度。yarn模式又分为yarn cluster和yarn client两种模式：

yarn cluster：生产环境常用的模式，所有的资源调度和计算都在集群环境上运行。

yarn client：提交任务和计算分离。Spark Driver和ApplicationMaster进程均在本机运行，而计算任务在cluster上。

三、Yarn和Spark的StandAlone集群调度模式对比

yarn调度模式各组件作用：

ResourceManager：管理子节点，调度资源，接受任务请求。

NodeManger：管理当前节点，并管理子节点。

YarnChild：运行真正的计算逻辑。

Client和ApplicationMaster：提交App,管理该任务的Executor。

StandAlone调度模式各组件作用：

Driver：Driver(Client+AppMaster)提交App,管理该任务的Executor

Master：管理子节点，调度资源，接受任务请求。

Worker：管理当前节点，并管理子节点。

Executor ：运行真正的计算逻辑。

发表于: 2020-05-162020-05-16 22:13:59
原文链接：https://kuaibao.qq.com/s/20200516A0O31400?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

大数据技术，Spark任务调度原理四种集群部署模式介绍

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

大数据技术，Spark任务调度原理 四种集群部署模式介绍

相关快讯

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

大数据技术，Spark任务调度原理四种集群部署模式介绍