00:00
那另外呢,就是特别影响咱们作业性能的一个参数啊,并发的参数啊,可以跟flink的并行度联系起来啊,它所谓的并发其实就体现为flink节点的某个扇子节,某个节点的它的一个并行度啊。那么这边有什么呢?这个其实我们有印象的啊,那首先有什么什么write task,也就是说我写的时候write的并发。Writer的并发,那writer的数量越多。对小文件个数有没有影响啊,这边的官方说明是没有影响啊,没有影响,有影响的是谁啊,是8SIGN啊8S。就是去分配桶,比如说我这10万条数据,我打算分成几批啊,几类几条流水线啊,几个桶啊,比如说分成四个桶,那回头你写出去就会有四个文件啊,四个文件。呃,增加并发的同时,增加了并发写的什么,发的数量也就变相的增加了小文件。
01:06
这个它的。并发默认就是的并发啊。什么叫writer的并发?其实这个不好理,不这么说不好理解。其实就等于。Flink作业的并发的并行度啊,一会我们看一个实际案例吧,啊,那这个还有一个关于index引导程序啊,这个是我们后面会介绍到的,呃,比如说这边啊,可以离线批量导入啊,也可以全量接增量有一个引导啊。Index boot是就是用来全量接增量的时候用的啊。呃,这个是可以调整它的并发,可以影响它的效率,对不对,你并发越低效率就越低嘛,并发越高效率越高,但是这个引导程序它会干嘛,会阻塞check po,所以你在用这个特殊场景的时候啊,要注意checkpoint的失败次数要设高一点,间隔设大一点啊,这个只有特定场景用的啊,回头我们演示到讲到这里时候再说这个事儿,你留个印象就行啊。
02:15
那这个RAID task大家就常见了吧,就是我去读一张分呃护体表,那这个时候我用的并并发用多少啊。它包括P模式和流模式都一样啊,都是通过它来控制,再有一个就是compassion,就是压缩合并的这个参数啊,这个是。在线压缩的并发啊,为为什么要强调一下在线呢?呃,因为我们可以离线,也就是说将压缩任务单独摘出来,不要放到我这个写的作业里面去啊,这个回头我们也会下面会有一个离线compassion啊,你就明白什么意思啊,那关于这几个咱们简单给大家看一下吧,我的。
03:00
筛集群现在是启动了,对吧,那我们启动个搜狗客户端就好了啊。嗯。好,你看启动的是雅安的对不对?呃,So tables我们之前建的表都不在了,因为我们搜狗客户端默认用的catalog是基于内存的,也基于内存有什么特点,就是不会持久化嘛,你只要退出了,销毁了,那这个数据就都没了,所以咱们那些create table的语句都要自己再挨个去创建啊。当然有没有解决方案呢?有,我们可以catalog使用have catalog,也就是说我们借助have have,它的原数据不是要保存到数据库嘛,对吧?比如说咱们存have是存到MYSQL的原数据,那如果我们用hi catalog,我们在flink当中建的这些表啊,它的原数据是一直在的,你重新进客户端,你再去售的话,也是能看到那个我们在后面的章节跟help集成,再来给大家讲,来演示,这个也是生产中建议去使用的一种方式啊。
04:13
行,现在就不不讲那些了啊,那我就重新建个表呗,那我想想我用啥呢。哎,我们这不有个流式插入吗?我还建一下这两张表吧。啊。啊,So tables啊,就这个ST,还有这个T2啊,啊用它来,那我只大家注意啊,我现在insert into t2select新from s t好提交执行。再拷贝一个。你们看嘛,看啥来着,呃啊对,我们看一下我们的默认配置文件啊,还记得我们有个D方默认的并行度是多少一,对不对,弗link作业默认并行度是一,而且我们提交作业的时候没有指定并行度啊,我啥也没指定。
05:08
大家看我这个位置的参数超简单,都是用默认值,其实好,那么接下来我们来看一下啊啊刷新。那你看是不是有一个作业提交了insert into这个TR对吧,点进来看一下它的节点。来啊,首先第一个这个S我们读的不是忽地表啊,所以这个就是flink作业并行度啊。这个呃,并行度对不对,那这个八这是什么呢。是不是也是一呀?那说明什么?它是谁的并行度啊?那不就是弗link作夜的并行度吗?对吧?8K3呢,这个参数对应什么呀?哎,翻来翻去的就是这个这个参数,它默认是什么,RI的病房啊RI的病房。
06:06
好,再往下。但是我们可以看到我们的并发是多少,默认是四啊。啊,所以你说描述为write的并发还不太准确,这样吧,我把它描述改一下,我改为说,嗯。等于flink的并行度啊。默认值就是的并行度啊。那再往下看。呃。这里有什么?Compassion task,还有compassion的计划阶段,那么大家注意了,我们一般讲的这个是空,那我们后面的这个啊,这个compassion tasks。这个指的是他啊,跟他不是这个啊,不是计划阶段啊,不是计划阶段,所以这个默认值是什么?四啊,默认值是四,所以你说是re的并发对不对啊啊这个才是对的,因为它re的并发是多少是四啊。
07:11
好了,呃,或者说嗯,就这么写吧。尽量不要造成误解啊,那其实这个也一样引导程序,那现在没有那个引导程序节点了啊,因为。因为我们没有执行这个全量节增量啊好,那这个就是这几个参数的影响。啊,好啦,那有的人就有疑问了,说哎呀,那我刚才建表没注意呀,我现在都没指定我要调这个并发,难道我要把这个表删掉重新创建,也就是说我这个V的参数是不是已经写完了呀?我们之前没指定啊,现在诶有一种最土的办法,就是你drop table啊,T2啊,就这张蝴蝶表,你把它删了,然后呢,重新写这个create table,将你要的参数写进去,这是最low的方式,还有一种方式叫临时生效,我教你啊,Insert into,用我们那个circle his啊,Circle暗示那种方式t up,大家注意在表明后面写一个什么呢,斜杠星加号,然后呢,Options。
08:26
接下来是括号在后面就是新结束在这个里面再可以写参数来,我给大家玩一个啊啊,我们来调一下,呃,比如说task。啊,我等于二吧,好吧,我让它不一样,然后这个8k s task克我也调一下。啊,我让它等于三好,还有什么可以玩的,这个没有对吧,Read也没有,还有一个compassion,来,我们再玩一个compassion。
09:00
Compassion task等于四诶。这个就是一个。一个什么his暗示嘛,对吧,它是支持对你单独的一条银银色的语句去。重新临时让一些参数生效啊,那我建议大家去用这种方式,所以你建表的时候就不用去纠结了,你想怎么调,你就调整你的银色的这个语法就可以了,好吧,好,然后呢,接下来就是select from s t,对不对,我先把之前这个任务停掉,要不要停呢?停掉吧。先停了吧。好回车,哎,我看一下哪里写错了啊。嗯。28个字符。哦,我知道了,这个参数值也得是字符串啊,我没有加单引号啊,而且我后面试了一下,你看我重新写了一遍是可以的,但是我已经退出了啊,退出了,嗯。
10:14
我取消掉吧,我重新演示一下吧,啊,我重新进入这个搜狗客户端,哎呀,没有持久化,真烦呐。嗯。还要再DD一下啊啊瘦tables啊,接下来来这个是什么东西啊,不管啊不管它insert into t2,然后呢,斜杠星加号,空格options,然后括号。空格星号斜杠啊,就是说你想变的是哪张表的参数,你就把这个语法加在哪张表的表名后面啊,大家注意这个语法啊,是接在表明后面,你改的是哪张表,就在哪张表后面加这个东西啊。
11:05
那比如说你是要查的时候修改参数,那就是select新from某张表A,然后在这里写什么呢?啊这个东西啊。就如果你是查询语法,你要改的是表A的一些参数啊,那你就在总而言之,你找的就是表明在哪里,这个就在哪里啊,跟它对应好吧,那我们再来改一下啊,我就不信了。啊,不是不信啊,咱们已经改成功了,其实red task。等于啊,不要忘了字符串对不对啊,括号括起来啊,把单引号引起来,然后8K23呢,咱们改成三啊。诶。三再来一个可以改的,呃,Compassion task。
12:01
咱们改成四好,这就完了,对吧,我们调整了,接下来select from s t回车,诶,你看接下来就不报错了啊,你看我们改成了234,来我们看一下吧。来瞅一瞅啊瞅一瞅,呃,现在正在启动中,所以是红色的繁忙啊,无所谓,那你看这个right,我截个图啊。你看right task是不是就变成了二呀,对吧,然后这个所谓的八三呢,呃,是不是就变成了三呢。再有一个,哎,咱们是不是改了一个compassion task改的是他对吧,我说了这个plan是是他自个儿的啊,这个不是不是不是啊,他们没有关系啊,这是计划阶段,再往后这个S呢,就这些唯一的就是按照flink的并行度来啊,因为我们flink并行度是一啊,所以他们都是一啊,能理解吧啊,那我把这个语句也可以给到大家啊。
13:22
好,这个是,呃,一些并发参数,还有一些用法啊。
我来说两句