温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
那前面我也讲了,呃,我们如果早期呢,并没有开启have的自动同步,那么现在有没有办法手动将之前的那些户地表也同步到have当中呢?啊,这是可以的,那么忽Di提供了一个同步的脚本啊,这个脚本它可以同步have最忽底最新的原数据,包括也可以自动建表啊,增加字段啊,同步分区信息啊,到hi的原数据,那它的同步有三种方式,分别是JDBC啊。原数据服务还有hi circle啊,那这些模式可以说是对建表的,也就原数据的一些不同方式吧,啊,那其中呢,JDBAC还有元数据的这种优先级高于hipe circle,因为hi呢,主要是用于呃,一些DML语句,而不是DDR,那所以呢,我们就体验一下这两种啊,主要是这两种啊,那这个脚本的位置呢,我们可以先找一下,在源码路径下有个底同步模块,还有呢啊,里面有一个whodi have同步啊,里面就有这么一个脚本啊。
01:05
啊,我们来找一找吧,呃呃,现在是忽底的源码路径对吧?接下来进入一个忽底啊同步,然后呢,里面有一个hi同步啊好,进来之后呢,这里提供了好几个脚本,那其中咱们想要的就是它啊。那它的语法就比较简单了啊,我们可以看一下语法帮助啊。你看有这么多啊,你要是不会用可以看这个,那最简单的我们看几个吧啊,第一个呢,是一个,如果你用JDBC的方式,那你就填的是1万的端口啊,这种是属于JDBC方式啊,那如果你是用的HMS,那你写的就是9083了啊,所以这个是不一样的,那另外呢,你JDBC的话,肯定有用户名跟密码对不对啊,然后呢,有分区字段,还有的户底表的路径啊,还有数据库,这个是have的库名啊,要同步过来的库名,同步过来的表明啊,这两个是属于have的啊,属于have。
02:25
另外有呃几个参数啊,就一个叫跳过这个后缀这么一个东西,因为这个有一个护的新老版本的问题啊。一个。读石优化的版本RO啊,为了向后兼容,我们可以选择跳过这个后缀啊,可以关闭这个后缀行,那我们现在高版本肯定是无所谓了啊,那其他的你看还有参数是什么重要的啊,同步模式啊,我们可以选三者之一,那我们可以选择HMS。
03:00
啊,那另外呢,9083没地方写的话,我们也只能在这里写了啊,写在CDBCUUR这么一个参数里,看起来好像是JDBC是吧?啊。另外呢,有一个解析分区值跟我们前面Spark案例有点像啊,如果是要解析的话,怎么去提取分,比如说我某个字段是这样,ABC,这是一个分,这是一个字段啊,这是一个字段,那如果你想做成三级分区,你是不是还得切啊啊,那这时候就可以指定它怎么从这个字段提取出三级分区啊。
我来说两句