温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
看完flink跟have,接下来我们试试Spark跟have,那有一些参数呢,我就不写那些常量字符串的,可能有一些版本问题,你有一些是过时的,那我们直接写参数的全称啊,都这么来写的那参,呃,这边是官网的个别参数说明,那接下来我给你们说一下具体的第一个呢,你看这个参数是什么?Have同步的开关啊,咱们以现有为例啊,啊,那设置为two开启,另外就是同步模式啊,同步模式可以,呃,Help MAS store也可以JDBC啊那如果是HMS呢,要指定原数据的uri啊,也就是9083,那接下来如果你有用户名,有密码,那就去指定,在接下来就是同步到have的什么库明,同步到have的表明,再有呢,Have的分区字段,也就是说你用哪一些字段作为have的分区字段。呃,这。
01:00
这边是一个分区的提取器啊啊,这这是一个默认的啊,默认的可以按斜杠提取啊或者怎么样,那接下来我们以一个实际案例来给大家玩一下啊,那这个东西呢,我们用线来操作啊,那么找找那个启动命令啊,启动线对吧。诶,这里刚好有一个进来之后呢,咱们就是导入一些依赖哎,设置一些变量啊路径啊表明啊,还有呢,用Spark自带的啊,Spark体自带的数据生成器啊。哎,不对啊,看错地方了,嗯,这里。一样的啊啊一样的逻辑对吧?啊,然后呢,生成一些数据啊,封装成DF,那这边我做了一个特别的处理是什么呢?因为咱们这个不是什么美国还有哪个州,还有哪个呃,哪个地区,它的分区字段是这么一个东西啊啊所以我想也做成have的多级分区,那这个时候呢,咱们就啊得特殊处理一下,我将这个partition pass按照斜杠啊切了一下,还又split了一下。
02:18
然后呢零呢就取为字段A啊,这个就叫字段B,这个就它字段C啊,我随便起的粗糙的名字啊,那这样的话,我们回头去指定分区字段的时候,才能指定到ABC,要不然指定不到啊。行,那其他的你看啊,我这边指定的有什么呢?开启HMS还有9083,呃,Have库名,Have表名啊字段名就OK了,那接下来我们快速的执行一下啊,我们先来看一下have啊。你看现在是这几张表对吧,那现在我的表明是。呃,Spark护底啊Spark底行,那么直接一起拷贝过来。
03:01
啊,在哪在这。等他执行完。好,执行完之后,我们来have这边再查一下啊,Show tables,那你看是不是多了一张表,叫Spark护Di,那么DC一下Spark护理,那么你看分区字段有什么ABC啊ABC。行,这个就是我们做的一个同步啊,同步操作。
我来说两句