温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
接下来我们来说一下啊执行原理,从计算的角度来讲呢,数据处理过程中需要计算资源啊,就是内存啊,CPU这样的东西,对吧?和咱们需的我们的计算得到我们想要的内容,那么Spark框架在执行的过程当中,它需要申请资源,并且将应用程序中的数据处理逻辑分解成一个一个的计算任务,记住啊,它是要分解的啊,然后将任务发送到已经分配资源的计算节点上,按照指定的计算模型来进行数据的计算,最后得到计算的结果。那么我们RDD呢,是整个数据处理的核心的数据模型,那我们来看看他在我们整个的计算当中,它处于一个什么样的位置,首先我们的执行的过程的第一个我们要启动集群环境,咱们。
01:00
这里呢是以雅恩为例,然后呢,我们接着往下,当你启动了我们的resource manager no manager的时候,这个时候我们的资源算是有了,可是你光有资源不行,你没有计算的节点,那不行,所以呢,我们接下来18UG通过申请资源来创建调度节点和计算节点,这是我们的driver和我们的exor,记住啊,他们都是运行在某一个node manager上面的,你像上面的resource manager,它是一个管理的,所以啊,真正干活的是这个node manager,对吧?好,接着往下,下面呢是Spark框架,会根据需求将计算逻辑根据分区划分成不同的task,所以在我们的driver这一边记住了啊,Driver主要是干什么的呀?它是用来做调度用的,所以当我们有多个RDD的时候,那么多个逻辑就会形成一种关联,那么形成关联以后,到了最后它会分解成一个一个的task,诶,就是这样的啊,所以它分解成了一个一个的task之后,它会把这个task呢放到一个任务池当中,叫task。
02:08
那么为什么要放到一个任务池当中呢?就是因为它需要调度咱们的任务啊,所以这个咱们后面会给大家讲,你就知道任务是需要调度的就可以了,然后呢,我们的调度的节点呢,会从任务池当中把我们的任务给它取过来,然后根据我们的一些节点的状态和我们的首选位置的一些配置,那么会把它发送到不同的节点来执行计算,所以啊,我们的task会发给不同的,是这个意思啊,所以啊,从我们上面的流程看到R整个流程是装,哎,逻辑的封装,以及呢,它将我们的task生成出来,那么后面就靠driver把我们的task发送到我们的ex就可以了,所以啊,这是我们RDD在整个流程当中的作用。
我来说两句