00:00
好,那接下来我们就可以去配置have on SPA的环境了啊,在正式开始配之前,我们还需要确保两个点啊,那第一个点需要确保我们集群当中所部署的haveve是兼容Spark3.0的啊,那给大家发送的这个资料当中就包含一个兼容Spark3.0的安装包,这个呢是我们重新编译之后的安装包啊,这个要注意一下啊,好,这是第一点,那我们还有另外一个点需要注意一下,就是需要确保我们的have目前是正常用的啊,然后呢,我们再去给它配置氦VE王per引擎啊,那现在我们先检查一下啊呃,我在集群当中已经把VE部署好了,那现在我进到have的安装目录啊,进到它的Li目录啊呃,我们可以通过查看一下这个Spark的这个相关依赖啊,比如说我们呃,GR一下呃,查看一下Spark相关依赖的版本,来确保我这个have的版本是没问题的啊大家可以看到Spark相关的依赖咱们是不是都是呃3.0.0的呀,对吧,那那就说明现。
01:00
现在这个hive呢,那就是兼容Spark3.0的这个呃版本啊,这个是没有问题的,好,那接下来我们再启动一个hive的客户端,检查一下呃,这个hive是不是可以正常使用的,当然在呃打开hive客户端之前,需要先确保哎,我们这个集群当中的hi doop的相关进程得能够得骑起来才行,对吧?啊,我这儿呢已经提前骑起来了,好,那现在我们打开哈的客户端,看看能不能正常的打开。啊,咱们稍微等一下。好,那现在已经进入到了这个have的客户端了啊,那然后大家这儿呢,应该能看到一条日志对吧,看一下。呃,这个日志呢,是have on Mr is deeritated的,对吧,就是说have on Mr这种计算模式啊,也就是MR的计算引擎已经过时了,对吧?啊,那没关系,一会儿呢,哎,我们就需要就会给它替换成SPA引擎啊好,那现在能进到客户端啊,我们再执行一个比如说show,诶,Data,诶,Basis这样的一个语句来看一下,那它能不能正确的执行,OK,那现在default这个默认的库已经被查出来了,那目前看我们这个客户端呢,我们的呢,应该是没有问题的啊好,那没问题,我们就退出qui一下,那接下来我们就可以正式的去部署have on Spark这个,哎环境了,好,那现在我们往下走啊。
02:23
我们要做的第一件事儿是什么呢?就是在have所在的节点部署一个Spark,注意是在have所在的节点部署一个Spark啊,那配完之后呢,我们还需要去配置一个Spark Spark home的环境变量啊,让它指向Spark的安装目录。好,那接下来咱们把这一步呢去落实一下,好,那既然要部署Spark了,对吧?那所以说我们现在是不是需要拿到Spark的安装包啊,对吧?那给大家发的这个资料当中呢,也包含Spark的安装包,来点开看一下,那Spark的安装包呢,咱这一共有两个啊,那大家可以看一下,一个是带有hideop依赖的Spark对吧?那一个呢,是不带有hioop依赖的啊,这两个安装包呢,在我们后续的呃,配置过程当中都会用到啊,那现在呢,我们先用第一个啊,那咱们现在用谁呢?咱现在呢,诶应该需要使用的是这个带有hi doop赖的Spark啊,是带有doop赖Spark啊,这个大家要注意一下,好,那现在我们把这两个安装包呢,都上传到我们的的节点,我这呢已经提前上来,大家来看一下啊,我到了op s Spark这个目录下,L这个呢,就是我们刚刚看到的两个安装包,那现在我们先安装一个,呃,Have,呃,先安装一个s Spark啊,那我们安装的应该是哪个呢?
03:40
这个带有hi依赖的啊,OK,那现在我们先对其进行解压啊,来杠ZSVf3.0啊,后边呢是带有依,我给它解压到OPT啊Mo路径下。好,那检验完毕完毕之后呢,我们过去看一下来,那现在我们将这个Spark改个名字啊MV啊Spark,呃,3.0只保留Spark就可以了,好,那现在Spark呢,我们就相当于解压完毕了啊,解压完毕,解压完毕之后呢,我们不需要做额外的配置啊呃,因为实际上我们呃在hive所在的节点部署SPA的一个主要原因是什么呢?啊,其实主要就是呃让氦物去加载它所依赖的炸包对吧?啊是这样的,所以说SPA的其实咱们点D下面的一个点SH文件当中就可以了啊来,现在我们把这个配置文件打开。
04:41
好,那打开之后呢,在这里边我们需要添加一个Spark home的环境变量啊,然后呢,将其指向诶,我们之前解压的那个路径就可以了啊在这儿呢,我提前已经配好了啊,如果大家没有配好的话呢,需要把这个环境变量加上,那加上之后呢,诶,一定要记得S一下CE啊ETC点这个环境变够即生效,那现在我们本地的Spark就算完毕了,那接下来我们继续往下进行,呃,那接下来呢,我们需要在have的抗复目录下边去创建一个Spark的配置文件。
05:20
啊,注意是在have的康复目录下创建一个SPA的配置文件,OK,那咱们现在把这个文件创建出来。是Spark一些Spark的默认配置啊,对吧,好,咱们给它打开,那打开之后呢,我们在这里边添一些必要的参数,CTRLC拿过来来粘贴。好,那再来看一下这几个参数啊,那这里边我们呃配置了一个Spark master是雅安,那实际上我们呃,海王Spark,那它的计算任务大家都知道是Spark的这个计算任务对吧?那Spark的计算任务呢,有不同的模式,有standard local模式,有雅安模式对不对啊,还有local模式,那在这边呢,我们相当于使用个它的雅安模式啊,那master指向雅安,好,那下边呃,有一对参数啊,这个参数是什么呢?诶,spark.event log inable啊,也就是我们需要开启Spark的事件日志对吧?那这样一来,Spark的任务在计算的过程当中产生的日志就会写到咱们下边这个参数所指向的路径,那也就是说它会写到哪儿呢?写到我们HDFS的一个路径啊,然后大家配置这两个参数的时候呢,一定要注意一下啊呃,首先第一个就是啊,咱们呃,HDFS的主机名和端口号,那再有一个呢,还要确保咱这个路径呢,得提前创建出来啊,得我们手动创建。
06:49
啊,这是要注意的,好,那接下来继续往那这边我们还需要去呃配置一下我们这个Spark的任务的driver和的内大小在这因为我们是虚拟机环,所以内存有限,此处我们将这个呃driver和的内存都配置成一个G啊就可OK了,好,那这几个参数咱们给它配上,那这个文文件就完事了。好,接下来我们继续往下走啊,刚才提到了啊,就是这个路径我们需要提前创建,那现在呢,我们执行一下这样的一个命令,把这个路径创建一下。
07:20
来,我们右键粘贴FS海do FS-make DR Spark history好,那这个路径我们就创建完毕了啊,接下来我们继续往下进行。再往下呢,我们还需要向HDFS上边上传一个Spark纯净版的炸包,诶那有同学可能会说了啊,那我这儿本地是不是已经部署了一个Spark的啊,这个已经部署了一个Spark了,对吧?啊,那我have on Spark我在运行的时候,Have是不是已经能够拿到Spark的相关依赖了呀,对吧。那我为什么还要再去往HDFS上上边上传一份SPA包呢?啊,这个呢,给大家解释一下啊,如果说我们不往HDFS上边上传SPA的炸包,那那OK,那我们以后每次去执行这个呃,Spark任务的时候呢,它都会自己把本地的Spark相关依赖给它上传到HD。
08:18
那他为什么会上传到ATS呢?大家想一想啊,因为咱们现在是雅安模式,对吧?那雅安模式是不是SPA的任务会被分配到不同的node manager上面去执行啊,对吧?那是不是每个node manager都得有SPA的依赖才可以。是这个道理吧,对吧,那呃,那所以说Spark这边呢,它会把所有的依赖都上传到HTFS上,那这样一来每个node manager是不是都能够加载Spark的,就是即便我们H,那我们每次提交任务的时,Spark会上传一份啊是这样的,那我们为了避免他每次都上传,所以说我们这呢,自己手动的H上传一份,那这来以后每次提交任务就不会再重新上传了。
09:06
啊,这是这样的一个目的啊,好,那再有一个我们这儿为什么要上传纯净版的啊,这个SPA的炸包呢?那这儿呢,主要是为了避免一些这个冲突啊,OK,那现在我们把相关的依赖给它上传到HDS上就可以了,好,那现在呢,我们先创建一个这个路径啊,OK,那咱们找一个路径,那我们把这个炸包呢上传到HDFS上的根目录下边的这个sparks里边,那OK,咱们先把它CTRLC粘过来,我们给它创建出来。好回车好,那这个路径呢,就已经创建出来了,出来之后呢,接下来我们找到之前的那个纯净版的Spark啊在这个路径下,那咱们把它解压T-z X VF Spark3.0.tz对吧,然后回车。好,那现在我们已经解压完毕了,解压完毕之后呢,进到这个解压之后的路径当中,进到J目录,因为JS当中是我们所有的这个依赖,对吧,那现在呢,我们执行一个loop FS,然后杠put,然后点杠星啊对吧,那把这里边所有的都上传到我们刚才创建的那个Spark路径下,那直接回车。
10:18
好,那JA包上传上去之后呢,我们再继续往下进行往下走,那这个时候呢,呃,我们还需要再修改最后一个配置文件,那就是have set文件,在这里边呢,我们需要再增加两个参数,把这两个参数加完之后,那氦王SPA的环境就算是配置完毕了啊好,那现在我们先把两个参数粘过来,然后我再给大家去解释这里边的内容,好,那现在我们进到呃,OPT module have have的安装目录啊,完之后呢,进到com复目录啊,打开have set这个配置文件,那打开之后呢,我们来到最底下啊,然后在这里边我们呃,增加上我们刚刚所拿到的两个参数粘贴一下,好,那大家现在就应该能看到这里边参数,两个参数我们就加上来了啊,那这俩参数它们的主要作用是什么啊,我们一个一个看一下啊,来咱们一个看一下,首先我们先看第一个。
11:07
Spark雅安,那你看一下这个是不就是我们刚刚呃这个Spark的包上传到的那个对吧儿,我们给它配置好就可以了,那同样大家要注意的还是主机名和端口号的问题啊好,接下来我们继续往下进行。啊,那这个参数它的作用是什么呢?那就是指明have的计算引擎为Spark啊好,那到现在为止,我们这个have Spark的环境就算是配置完毕了。
我来说两句