Spark内核分析之Worker原理分析

z小赵

发布于 2018-09-05 15:47:40

4370

发布于 2018-09-05 15:47:40

文章被收录于专栏：简单聊聊Spark

接着上篇的Schedule调度内容，本篇我们来看看Driver，Application向Worker发送launch以后到底发生了什么。先来看看下面这张图；

Worker启动进程原理图

我们来简单分析一下这张图的运行原理；

1.首先，Master向Worker发送一个launchDriver的请求，Worker接收到请求后创建出一个DriverRunner对象；

2.然后紧接着利用创建的DriverRunner对象调用其start()方法，启动一个线程；

3.在该线程内部，首先创建了一个本地目录，然后拷贝我们要运行的Jar文件到本地，接着创建出一个ProcessBuilder对象出来；

4.最后利用ProcessBuilder对象启动Driver进程；

5.当Driver进程启动完成之后，向当前启动DriverRunner线程的Worker节点发送一个Driver启动的状态；

6.当前Worker在向Master发送Driver的启动情况，并清理相关内存信息，到此我们的Driver启动就完成了；

7.关于Application的启动过程，与Driver的启动基本一致，只有最后一步不同，当Executor启动完成向Worker发送状态改变信息，然后将其向Driver进行注册；

分析完上面的基本原理之后，我们先来看看Driver启动的源码是如何实现的；

worker启动Driver

在DriverRunner线程中启动Driver进程

启动完成，发送状态改变信息

以上即为Driver的整个启动过程，下面我们来看看Application的启动过程源码实现；

启动Executor

通过ProcessBuilder启动Executor进程

发送状态改变信息

总结：以上就是我们的Worker启动Driver，Application的整个过程；到这里，我们已经了解到整个Spark启动初始化的过程，接下来的内容我们来正式分析我们的Spark作业的运行流程是什么样子，包括DAGScheduler的调度，TaskScheduler中的TaskSet的任务分配算法的具体实现；欢迎关注。

如需转载，请注明：

上一篇：Spark内核分析之Scheduler资源调度机制

本篇：Spark内核分析之Worker原理分析

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2017.12.24 ，如有侵权请联系 cloudcommunity@tencent.com 删除

spark