温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
好了,朋学们,我们接下来给大家讲一下Spark的核心概念,首先我们讲的是和呢,其实我们之前提到过,它是我们集群当中运行在工作节点当中的计算节点,它是一个Java虚拟机的进程,主要来执行一些我们的task啊,Task就是我们的计算任务了,对吧?那么在提交应用的时候呢,我们可以提供参数来设定我们的ex的个数,以及它对应的资源,那么这里所谓的资源呢,其实就是我们ex当中的内存大小和使用的虚拟机的什么CPU的核数啊,就是我们当前呀,我们的这个ex有多少个核?诶,这个盒数我们可以指定一下啊,咱们称之为叫call,就是这个意思啊。那么在我们提交我们的参数的时候啊,他们里面有一些啊,比方说叫number ex,那这个呢,就是配置我们exec的数量啊,比方说80个呀,诶120个之类的,对不对,然后下面呢,是我们的ex的memory,我们叫做。
01:00
内存,你可以把每一个ex的内存给它设定好,这是完全可以的。还有一个就叫做它是配置每个的虚拟的CPU的的数量,如果我们的这个呢,我们说了是我们三核,但是你的这个设备呢,它只有单核的话,那么这样的话,其实它模拟的是多线程的操作,它模拟是多线程操作,那么这个多线程如果你只有一核的话,其实它体现的是我们的并发,所以接下来我们要提到一个叫做什么呢?并行度和并发的概念,那么我们接下来就一块儿来看一看好不好,同学们。呃,首先我们现在假设啊,咱们来看看同学们,我们现在假设呢,我们有一个我们叫做ex啊,咱们叫做ex,嗯,然后呢,我们在这里,那我现在假设呢,我分给他什么呢?三个盒啊,分给三个虚拟的盒,咱们拿过来好了,那么我们现在呢,分给他三个盒,OK,那么这三个核呢,并不是我们设备当中真实的核数,只是我们给它分配了一些虚拟的核数,那么也就意味着如果真正的CPU核呢,它是单核。
02:10
对吧,它是我们单核,真正的这个CPU核是单核的话,那所以说你的虚拟核呢,其实就类似于现成的感觉,在我们的三个虚拟的核呢,它去抢占这一个真正核的操作,所以这个其实我们称之为叫并发,就跟我们在学Java的时候学的那个线程一样,他们是一种并发的感觉,对不对,那什么叫并行呢?并行啊,就是说我们有真正的三个核,有真正的三个核。那么真正的三个和我们在这个时候,每个我们的扣来抢在一个核的话,他们达到了真正的并行计算,也就意味着是同时计算,这个我们称之为叫并行,所以我们在下一个概念当中,我们叫并行度。所谓的并行度,就是整个集群并行执行任务的数量,称之为叫并行度,诶就是这个意思,就是你占用的那个核数,诶同时有多少个对吧?那我比方说有80个核,那如果我同时执行80个任务的话,那么你的并行度不就是80吗?对不对?所以啊,这是可以配置的啊,这是可以配置的,并且在我们程序当中也是可以动态修改的,这是一个并行度的概念,这个要千万明白,不要跟那个并发诶混了对吧?这是我们病情的概念,它叫做真正的同时执行。
我来说两句