00:00
接下来我们动手体验一下跟Spark集成来操作护底表这么一个操作,那么首先呢,咱们还是要回顾一下whodi支持Spark的一个版本,那么前面也跟大家聊到了,不同的忽Di版本支持呢,Spark系列是不一样的啊,那这边我列出了对于SPARK3的支持啊,那要注意在0.12当中,呃,支持的是3.1 3.2 3.3,没有3.0啊,没有3.0,那如果你想要3.0,你可能呢,你得用。最新呢,只能用到0.10啊。当然呢,对于二系列还支持2.4啊,这个我就不啰嗦了,那一些新特性啊,也是在3.2才支持呢,那本教程呢,咱们就以3.2的Spark为例啊,那首先需要大家先去安装部署一下。那么你可以通过这个地址直接w get去下载下来,那我这边是有了,下载下来之后呢,你将这个踏包,呃,通过踏命令去做一个解压,解压到对应的目录就可以了,那么大家可以看一下我的model下面已经解压了一份Spark3.2.2就是这个啊,另外呢,解压完之后最好还是配个环境变量啊,方便使用。
01:22
来点d my env啊,我习惯上写在这个文件里面,在这呢,我已经配了一个Spark home,那这个路径啊,写成你的路径就可以了。修改完环境变量,不要忘了做一个source常规操作啊,Source一下这个环境啊,那就可以了,那么接下来呢,呃,我们需要集成,只需要做一件事情就可以了,将我们编译完的Spark护理包放到Spark的。呃,依赖路径下面即可啊,那在哪呢?我先把我老的那个删掉啊。
02:15
我们进到softdi,呃,0.12里面有一个package,在这里呢,有一个Spark模块啊,Whodi Spark这个,那么进来之后呢,有一个target target就是咱们编译完的一个路径,那里面有一个架包,对吧。嗯呃啊,咱们要的是上面这个名字最短的这个就是好,那我们拷贝它拷贝到OPT model Spark,呃,3.2.2里面的架。放到这个里面就可以了,好我们拷贝过去。
03:01
那拷贝完事之后啊,我们搂一眼吧,那这个包已经在这里了,这是我们编译完成的包,那么接下来你我们只需要去启动我们的Spark就可以啊,那通呃,Spark呢,怎么来操作这个护底呢?啊,你可以直接通过share Spark share直接去快速的体验,那你也可以。去到你编呃打写成一个代码,然后打成架包的方式去提交也可以啊,那我们先介绍一下这个渲染的方式啊,这样比较快啊,快速的体验。那么大家别忘了这个它Spark对于依赖的加载,它是静态加载的,也就是说如果您已经是启动了一个啊什么样的集群,比如说是真的弄的是B,那么你添加新依赖需要重启一下它才能够加载到啊行,这个不啰嗦了,那么接下来呢,大家注意这个启动命令啊,Share里面,呃,启动的时候不同的版本它可能写法不太一样,包括它的类不太一样,这个大家可以去官网查阅啊,有一个Spark指南,你看一下你对应版本有什么区别啊,那如果是3.2跟我一样就行了,那么大家看一下啊share,然后呢,指定几个参数,那这些参数分别是什么?诶,一个序列化器指定为K,第二一个呢。
04:31
呃,使用了一个catalog啊,咱们用的是什么Di catalog,还有一个呢,是一个拓展项啊,用的是Di Spark session。指定这三个就可以了,那么如果你需要用到HDFS之类的啊啊,你记得启动一下哈杜,那如果没有的话,你不启动也行啊,这个我就不不去啰嗦了,那这个命令啊,你就不要手敲了吧,这个可是全类名啊啊,也是一个固定写法啊,如果你有其他参数要指定再去指定就好了啊,咱们快速演示啊,好回车。
05:15
嗯。好,那这样就进入了Spark share这个交互式的命令行了,就可以我们来一个快速的体验了啊。
我来说两句