首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Spark作业执行原理

参见书籍 《图解Spark:核心技术与案例实战》 要点概述 ** 作业(Job)提交后由行动操作触发作业执行,根据RDD的依赖关系构建DAG图,由DAGSheduler(面向阶段的任务调度器)解析 *...任务的提交 SparkContext 调用DAGSheduler中的runJob方法,调用submitJob方法来继续提交作业,在DAGSheduler的onReceive方法接收提交的任务并完成模式匹配后...,调用handleJobSubmitted方法提交作业,并且在这个方法中进行阶段划分。...划分调度阶段 Spark调度阶段的划分在DAGScheduler中的handleJobSubmitted方法中根据最后一个RDD生成ResultStage阶段开始的。...执行任务 task的执行主要依靠Executor的lanuchTask方法,初始化一个TaskRunner封装任务,管理任务执行 的细节,把TaskRunner放到ThreadPool中执行

47160
您找到你想要的搜索结果了吗?
是的
没有找到

Spark作业调度

Spark在standalone模式下,默认是使用FIFO的模式,我们可以使用spark.cores.max 来设置它的最大核心数,使用spark.executor.memory 来设置它的内存。...下面介绍一下怎么设置Spark的调度为Fair模式。   在实例化SparkContext之前,设置spark.scheduler.mode。...System.setProperty("spark.scheduler.mode", "FAIR")   公平算法支持把作业提交到调度池里面,然后给每个调度池设置优先级来运行,下面是怎么在程序里面指定调度池...context.setLocalProperty("spark.scheduler.pool", null)   默认每个调度池在集群里面是平等共享集群资源的,但是在调度池里面,作业执行是FIFO的,...我们可以通过spark.scheduler.allocation.file参数来设置这个文件的位置。

90870

Spark Operator 是如何提交 Spark 作业

Overview 本文将 Spark 作业称为 Spark Application 或者简称为 Spark App 或者 App。...目前我们组的计算平台的 Spark 作业,是通过 Spark Operator 提交给 Kubernetes 集群的,这与 Spark 原生的直接通过 spark-submit 提交 Spark App...之前的文章有提到过,在 Spark Operator 里提交 Spark 任务,spark-submit 的过程是很难 Debug 的,原因就在于下面的截图代码里,这里的 output 是执行 spark-submit...之后的输出,而这个输出是在 Spark Operator 的 Pod 里执行的,但是这部分的日志由于只能输出一次,所以用户不能像原生的 spark-submit 的方式,可以看到提交任务的日志,所以一旦是...Summary 本文主要介绍了 Spark Operator 中提交 Spark 作业的代码逻辑,也介绍了在 Spark Operator 中检查提交作业逻辑的问题,由于 Operator 依赖于 Spark

1.3K30

Spark源码分析-作业提交(spark-submit)

主要逻辑是组装并执行java命令,主要逻辑: #生成命令的主要方法 build_command() { "$RUNNER" -Xmx128m -cp "$LAUNCH_CLASSPATH" org.apache.spark.launcher.Main...和spark-class,则相当于是分两步执行: java -Xmx128m -cp "$LAUNCH_CLASSPATH" org.apache.spark.launcher.Main org.apache.spark.deploy.SparkSubmit... 第一步组装一个java命令(main class是SparkSubmit),然后给到标准输出,并在shell中执行 java进程的执行逻辑 org.apache.spark.launcher.Main...,向yarn提交作业 org.apache.spark.deploy.SparkSubmit#main org.apache.spark.deploy.SparkSubmit#doSubmit...提交作业的client类是org.apache.spark.deploy.yarn.YarnClusterApplication 向k8s提交作业的client类是org.apache.spark.deploy.k8s.submit.KubernetesClientApplication

97330

Spark系列——作业原理详解

,这里会创建一个jobwaiter对象,并发送一个JobSubmitted消息进行作业任务的执行,同时 waiter.awaitResult()会等待作业执行结果的返回:成功或者失败。...2.划 分 调 度 阶 段 spark是资源调度是粗粒度的,我们这里不讨论资源申请,当我们提交一个任务之后(此时资源应该都是在集群中申请好了),Spark首先会对我们的作业任务划分调度阶段,而这个调度阶段的划分是由...(stage)作业一次调度的入口,这样一次调度任务就发送到Excutor开始执行了。...(至于其中失败重试的机制不做讨论) 到此,stage提交的基本情况我们已经了解,但是对于一个了解spark的人来说,我们熟悉的task还没有出现,接下来,我们就来看看stage的task的执行流程吧。...(2) 如果任务是 ResultTask , 判断该作业是否完成,如果完成,则标记该作业已经完成,清除作业依赖的资源并发送消息给系统监听总线告知作业执行完毕。

35720

提交Spark作业 | 科学设定spark-submit参数

num-executors 含义:设定Spark作业要用多少个Executor进程来执行。 设定方法:根据我们的实践,设定在30~100个之间为最佳。如果不设定,默认只会启动非常少的Executor。...设得太大的话,又会抢占集群或队列的资源,导致其他作业无法顺利执行。 executor-cores 含义:设定每个Executor能够利用的CPU核心数(这里核心指的是vCore)。...这个参数比executor-cores更为重要,因为Spark作业的本质就是内存计算,内存的大小直接影响性能,并且与磁盘溢写、OOM等都相关。...如果作业执行非常慢,出现频繁GC或者OOM,就得适当调大内存。并且与上面相同,num-executors * executor-memory也不能过大,最好不要超过队列总内存量的一半。...但是,如果Spark作业处理完后数据膨胀比较多,那么还是应该酌情加大这个值。与上面一项相同,spark.driver.memoryOverhead用来设定Driver可使用的堆外内存大小。

1.6K20

Spark源码系列(一)spark-submit提交作业过程

前言 折腾了很久,终于开始学习Spark的源码了,第一篇我打算讲一下Spark作业的提交过程。 这个是Spark的App运行图,它通过一个Driver来和集群通信,集群负责作业的分配。...作业提交方法以及参数 我们先看一下用Spark Submit提交的方法吧,下面是从官方上面摘抄的内容。 # Run on a Spark standalone cluster ....client的话默认就是直接在本地运行了Driver程序了,cluster模式还会兜一圈把作业发到集群上面去运行。...Worker执行 同样的,我们到Worker里面在receive方法找LaunchDriver和LaunchExecutor就可以找到我们要的东西。...难怪在作业调度的时候,看到别的actor叫driverActor。 不过这篇文章还有存在的意义, Akka和调度这块,和我现在正在写的第三篇以及第四篇关系很密切。

1.9K60

Spark作业基本运行原理解析!

1、基本原理 Spark作业的运行基本原理如下图所示: ? 我们使用spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程。...提交作业的节点称为Master节点,Driver进程就是开始执行Spark程序的那个Main函数(Driver进程不一定在Master节点上)。...在申请到了作业执行所需的资源之后,Driver进程就会开始调度和执行我们编写的作业代码了。...Driver进程会将我们编写的Spark作业代码分拆为多个stage,每个stage执行一部分代码片段,并为每个stage创建一批task,然后将这些task分配到各个Executor进程中执行。...本文仅仅提供一个简单的Spark作业运行原理解析,更多复杂的知识,大家可以查阅更多的资料进行深入理解!

95420

Spark源码系列(三)作业运行过程

作业执行 上一章讲了RDD的转换,但是没讲作业的运行,它和Driver Program的关系是啥,和RDD的关系是啥?...DAGScheduler如何划分作业 好的,我们继续看DAGScheduler的runJob方法,提交作业,然后等待结果,成功什么都不做,失败抛出错误,我们接着看submitJob方法。...PROCESS_LOCAL一直让步到ANY,最后的最后,推测执行都用到了。...5、开始作业调度。 关于调度的问题,在第一章《spark-submit提交作业过程》已经介绍过了,建议回去再看看,搞清楚Application和Executor之间的关系。...scheduler.statusUpdate(taskId, state, data.value) 到这里,一个Task就运行结束了,后面就不再扩展了,作业运行这块是Spark的核心,再扩展基本就能写出来一本书了

97640

Spark Task 的执行流程③ - 执行 task

本文为 Spark 2.0 源码分析笔记,其他版本可能稍有不同 创建、分发 Task一文中我们提到 TaskRunner(继承于 Runnable) 对象最终会被提交到 Executor 的线程池中去执行...,本文就将对该执行过程进行剖析。...该执行过程封装在 TaskRunner#run() 中,搞懂该函数就搞懂了 task 是如何执行的,按照本博客惯例,这里必定要来一张该函数的核心实现: ?...需要注意的是,上图的流程都是在 Executor 的线程池中的某条线程中执行的。上图中最复杂和关键的是 task.run(...)...ShuffleManager 中获取 ShuffleWriter 对象 writer 得到对应 partition 的迭代器后,通过 writer 将数据写入文件系统中 停止 writer 并返回结果 ---- 参考:《Spark

40910

Spark内核分析之spark作业的三种提交方式

最近在研究Spark源码,顺便记录一下,供大家学习参考,如有错误,请批评指正。好,废话不多说,这一篇先来讲讲Spark作业提交流程的整体架构。...DAGScheduler会分配一个Stage(即一个Taskset集合)给TaskScheduler,TaskScheduler把TaskSet集合中的每个task通过task分配算法提交到executor上面去执行...; 6.executor接收到一个task任务之后,将其包装成一个TaskRunner对象并调用线程池中的一条线程去执行task; 第二种,基于yarn-cluster模式的架构图,如下图所示;...Yarn-client模式 关于Yarn-client与Yarn-cluster两种模式的区别与使用场景; 区别:这两种spark作业提交方式的区别在于Driver所处的位置不同。...如需转载,请注明: Spark内核分析之spark作业的三种提交方式

71420

Spark集群和任务执行

Spark集群组件 spark.jpg Spark是典型的Master/Slave架构,集群主要包括以下4个组件: Driver:Spark框架中的驱动器,运行用户编写Application 的main...类比Yarn中的节点资源管理器 Executor:运算任务执行器,运行在worker节点上的一个进程。...类似于MapReduce中的MapTask和ReduceTask Spark基本执行流程 以StandAlone运行模式为例: spark2.jpg 1.客户端启动应用程序及Driver相关工作,向...任务分发监听等) 4.ExecutorBackend启动后向Driver的SchedulerBackend注册,SchedulerBackend将任务提交到Executor上运行 5.所有Stage都完成后作业结束...task下发 SchedulerBackend将任务提交到Executor上运行 资源划分的一般规则 获取所有worker上的资源 按照资源大小进行排序 按照排序后的顺序拿取资源 轮询 优先拿资源多的 Spark

56210
领券