温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
这个脚本为什么慢,为什么得看咱这个脚本写的,现在咱这个脚本写的并不是特别的好。啊,你看啊,咱们相当于是每调一下这个函数,是不是就相当于是呃,只提交一个子库任务啊,对不就提交一个MR,那相当于是我们这里边提交了多少啊,是不是一下提交20多个MR啊,而且这20多个mmr是怎么跑的呀?它是并行跑的吗?串行跑的,为什么?因为咱们上有一个这样的特点啊,什么特点是不是逐行运行啊,咱们一行一行的话,这个玩意之后这个这个玩意就是这个,但实际上你想一想,这一大串的mmr他们之间有依赖关系吗?我有必要第一个跑完再跑第二个吗?没必要,对不对,那所以说正常咱这应该怎么办,是不是应该到并行去跑啊,那并行去跑,你说咱们这20多张票,那应该怎么处理呢。啊,实际上我们应该最好这样去做啊,你可以这样做啊,就是我一个表一个脚本。啊,或者说你你不用也不用拆那么细,你假如说哎,我让他三张表一个脚本,三张表一个脚本,三张表一个脚本,对不对,那那这样一来的话,我是不是会有很多脚本啊,那这么多的脚本后期我让阿兹卡班去给我们调度的时候呢,阿斯卡班诶,他是能够根据你这个任务的依赖关系去给你提交任务的,那你你你告诉他,告诉阿德卡班,OK,我这20多张表呢,我们之间是没有依赖关系的,那他就会怎么给你执行啊,他就会并行提交这些任务,那些脚本是不是就能并行的跑了呀?啊,那这个速度就会快很多。
01:28
啊是这样的啊,所以这个大家哎得能够认识到咱们这个脚本它存在什么样的问题啊好了,那把这个录一下。
我来说两句