温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
好,那接下来呢,我们看一下有一个叫local global。啊,Local global,呃,那常见的解决这个数据热点问题,也就是说数据倾斜。对吧,数据倾斜的一个问题,好,那我们来看一下这个地方如何来解决数据倾斜呢?啊,那local global呢,将原本的A呢,分成了logo和GLOBAL2阶段。啊,做两阶段聚合啊,做两阶段聚合,也就是说我提前做一次聚合,聚合之后呢,再输出重新K对吧,就跟我们上午所讲的那个叫logo k是一样的道理,对吧?这里边就是这个,如果说我们先不做聚合,直接这个事情对吧,红色我们按红色和紫色来分组的,那红色全部到一起了。红色全部到一,紫色全部到一起了,对吧?那我们可以开启这个local global,也就相当于我们上午做的自己手动做的这个事儿,而在弗Li格S克里边对吧?弗Li s克里边直接开启参数就行了,比方说还是这样的数据啊,然后呢,他先做一次聚合,得到一个17红17对吧,然后呢,他得到一个红18,他得到一个红15,好,那下来按红色紫色看组,红色呢三条数据,紫色呢也是三条数据,对吧?就不像刚才这边12条数据变呢。
01:20
三条数据对吧,产生的注意倾斜这个思想呢,那我们上午我已经讲过了,这就没什么好说的了,对吧,而且呢,他直接开启参数就够了,那我们看一下它参数啊。未开启格global loglo,它会导致这个睡心鞋对吧?啊开启之后先做本地聚合,再全局聚合,那在这个里面呢,嗯,就开一下就好了,然后呢,默认的是自动。对吧,自动,那我们可以手动改为to face,用两阶段提交啊,当我们数据倾斜的时候,我们才需要改这个内容啊,才需要改它,对吧,如果没有数据倾斜,你改它,嗯,不一定见得有多好吧,对吧,而且还有一个点啊,那我们能在本地聚合,我们能把这几条数据合并成一个时期,也要有谁的参与。
02:08
可看啊,Mini Bach它是前提条件,因为mini Bach它能够在一个批次去做处理,对吧,一起做处理啊,所以要依赖于mini Bach啊,所以我们之前说第一个说的mini batch啊,要攒一个批次,要不然data streamam API呢,你要自己写状态,然后你就处理随便对吧?而在fli so里边,首先你得开启mini batch,然后再开启两阶段。然后再开始点对它这个配置信息呢,在刚才mini战的基础上,三个条件的基础上又加了一个。对吧,又加了一个啊就好了。啊,这个就搞定了对吧?啊,那这块就还好,那就注意事项就是说先开启mini batch啊,开启log global啊需要u daf的默制方法啊,啊那如果说正常的都会有啊都都是没问题的,但如果说你用的是这个。
03:08
自定义UAM函数,那一定要把这个末制方法写一下啊,因为之前大家可能都没有怎么去写这个末制方法啊,本地呢,要做聚合对吧,这个还好,这也是一个参数,那这个搞定这个搞定了对吧?诶。这是备注了是吧,把这个删掉啊。啊,这是第二个叫local global对吧,它相当于本地做一个聚合。
我来说两句