00:00
那另外就是给大家说一下,我全量做完之后,怎么接上我们的增量啊,这个其实就一个参数的用法,简单说一下就行,那如果我们已经像前面做完的全量的离线导入啊,已经有了,对不对,这个时候要接上我们的实时写入,那这个时候你还要保证数据不重复,可以依赖于这个什么SW引导的一个功能,它可以帮我们一个去重。对吧,那比如说咱们前面已经导完了,接下来我假设是这么一个流程啊,我就不再去操作了啊,这个比较简单,就这个是my circle啊,我们已经全量导入到忽底了啊,我们通过刚才的方式已经是一个呃报in色。那接下来是不是一个增量啊,啊,我们可能是通过flink CDC这种方式啊。接下来呢,就是flink CDC啊,同步一个增量的数据,那这个时候呢,我们再写到whodi,那简单了忽Di最关键的是文件系统的路径,还有它的原数据,对吧?啊,我们在CREATE1张一个table叉叉叉,然后呢,Pass等于等于什么呢?等于这张固体表就行了啊,也就是说就再建立一个映射,这个时候你的with参数开启这个index啊,Boot strap啊,等于two就可以了。
01:26
啊,那这个时候,也就是第一次接增量的时候,你才需要做这个事儿啊,才需要做这个事儿,那么如果呃已经接上了,就是这个引导程序已经过去了,回头呢,你可以再把这个呃作业给它停掉啊停掉之后呢,你可以再重新的。用呃,把它关掉就行了,对吧,也就是说把这个参参数去掉,你可以选择呢,修改表,也可以选择再重新create一个映射啊,一个护体映射啊,然后呢,往这边走啊,它操作的都是同一张表啊,但是这样听起来是不是比较麻烦对吧。
02:14
那这样的话,嗯。你可以选择什么呢?你也可以不关啊,就index,呃,引导程序啊,你就开为啊,之后直接就继续用也可以啊,也可以啊,那么接下来如果你觉得流程冗长啊,你可以在写全量数据的时候,将资源设大一点,然后直接走流模式写。对吧啊,全量走完接新数据啊,就是说历史存量都跑完了,你再将作业停掉,诶,然后呢,再将资源调小一点再接上就可以,或者按限流的方式去写入啊,就是这个是特别灵活的啊,那这边主要想强调是这个索引加载功能,它会将以存在的这张呼地表最新的数据一次性加载到呃状态中啊,所以这个还是比较吃内存的啊。
03:07
那我们看一下它的使用流程啊,第一个呢,我们创建一张互利表,就我刚才讲的映,再建立一张映射,这个时候位子里面指定这个为触开启索引加载功能,那这些画横线呢,就不用再看了啊,之后呢,加载完之后重启任务之后将它是呃设为false。就是说已经接上了啊,这引导程序已经接上了,就是说已经全量加载到你的state里面了啊,那你这个时候可以设为POS参数调到到合适的大小,为什么调到合适的,因为在前面的时候,你是不是将存量的全新数最所有数据加载到状态里面呢?那这个时候可能你比较费资源啊,那你现在提交提交的资源可以把它搞低一点了啊,就设置为正常的一个增量状态就可以了啊,另外呢,要注意它的加载为一个什么并发的加载啊,所以你你要看它的一个执行情况,你就搜这个东西啊。
04:10
来观察一个索引家长的进度啊进度。这就完事了,就这么简单啊,就是就是什么呢?再再总结一下啊,前亮打完啊,然后再CREATE1张映湖底映射,然后呢,这个参数字为two啊让它加载,加载完之后呢,你可以触发保存点对吧?触发保存点之后,你可以修改这个参数为false,然后再从保存点去做恢复就可以了呗。嗯。那个。大家可以看到有一些画横线的对吧?呃。画横线那些不需要,因为从0.9的某个分支开始,他就不用再做这个事儿了,那总而言之呢,这边还是真的很繁琐啊,就是我报个音射,完事之后,你再来create一个映射啊,然后设为two啊,然后把数据往里接,接一会儿之后我再把它停掉,再再把它设设为POS,再往里接啊,这个是太繁琐了。
05:20
但是没办法,目前的方案就是这样子啊,所以这个大家就视情况啊,反正就是加载数据的一个方案。
我来说两句