00:00
好,现在万事俱备啊,就差最后一个事儿了,执行命令开始导入,在此之前呢,我们先把这个whodi us包拷贝到Spark的class Spark的路径下,那否则啊,如果你指定的是嗯,在其他地方的路径啊,也就是Spark读取不到它就会报错一些,找不到类核方法啊,那所以强烈建议把这个包先放到这个驾驶里面去啊,那我就直接拷贝了,前面这个路径跟我的是一样的。好,拷过来进来驾驶看一下啊,你看这个uts包已经进来了,好了,这个包拷过来之后就可以运行这个命令,那这个命令呢,我拷贝过来,大家一起看一下是什么意思,好,那你看第一个呢,Spark sum me对吧,提交第二一个呢,杠杠class hold底工具类的名称,这固定啊不变。
01:01
接下来一个参数是什么呢?这个东西就是这个us包的路径在哪里,在这里是不是我已经放到Spark3.2.2架驶好,接下来是priorities配置文件,指定配置文件,那我们有四个对吧?我们只需要指定主要的卡卡source就好了,那其他的三个的读取路径都在卡不卡source当中指定的对吧?啊,它另外指定的三个需要的啊,那你要记得能对应起来啊,那接下来就是两个要注意的,第一个STEM provide,我们说了用的不是con那个东西,嗯。而且我们用的是定义文件来定义STEM,对吧?那所以我们要选择fire base。啊,STEM provide啊,不要忘了,然后这个source卡class呢,我们来源是卡夫卡啊,数据格式是Jason,所以我们用的是JA森卡夫卡source用什么就写什么,好接下来这个就是什么排序字段啊,按照UIID就完了,呃,目标也就是忽底的表路径啊,那我是打算放在tmp忽Didi test。
02:09
这个就是回头护地表明对不对啊,然后在target table地test。Op呢,就是操作写操作,我们有UPSINS色报in色都可以默认upset,那我现在用用这个也可以吧,啊表类型MR好没了,呃,那接下来看一下我的这个路径啊,TP护底,TP护底是没有这张表的,现在。那把命令拷过来执行一下。没车。嗯。你要是前面的准备步骤,比如说配置文件的配置,还有那个架包的准备,包括编译时排除一些依赖冲突。啊,都是按照我们这边做的话,你执行这个是能正常跑的,否则你会出现一些版本冲突,依赖冲突的问题啊。
03:07
那稍等一会儿啊。好,那一会儿之后呢,我们可以看到它基本上都是O,而且也没有什么异常信息,对吧,那应该是OK了,我们看一下HDFS路径有没有生成那个表路径啊刷一下。诶,发现多了一个什么who d test啊点进来哎,发现有原数据目录,Who底还有一些分区路径啊,因为我生成的数据那个partition就是纯粹数字而已啊点一下。呃,大家可以看到都是什么PA文件,那么PA呀。不是Mo表吗?怎么没有那个点log呢啊,我们用报ins色,并且呢,这个德尔塔stream会帮我们做什么compassion啊,所以执行完肯定都是回的。那么最后呢,我们来验证一下这个数据啊,那我们来查询一下,那我们还是用Spark circle交互式命令行的方式来查。
04:04
他这个启动命令跟前面的一样的,我们直接拷贝过来。好,呃,我记得咱们之前用的是一个Spark护底在数据库对吧,用哪个库无所谓了,因为我们只是建立一个映射而已啊,Show tables。瞅一眼,诶,这边是没有那个护地test对吧?那么接下来咱们来见表,关键在于现在是一张已经存在的。那已经存在的话,怎么做呢?对吧,这个蝴d test是已存在的,也有元数据的,也有这些了,那简单,我们只需要指定location就行了,甚至我们都不需要再去定义字段的,你看我的写法啊,Create table蝴test优先库,然后指定一个location为这张表的路径即可啊,其他的就不用多做了呗,啊,这个前面建表我们也讲过了,来试一下。
05:09
好,So tables。呃,让我瞅一眼啊,你看who d test,那我们来查询一下它who d test,我们应该是有1000条数据啊。诶,你看数据出来了啊,抓取了1000条啊。对吧,好,这个就是德尔塔STEM,咱们一个演示案例啊。
我来说两句