温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
那我们看一下第五个章节,呃,对整个作业的一个优化啊,其他考虑,那首先咱们分为map端、reduce端,还有整体的一个调整,先看一下map端,Map端首先一个叫map端预聚合,其实这个东西不需要咱们做什么事儿啊,首先像前咱们前面讲的Spark搜狗的话,本身咱们执行计划看到的那个哈希aggreg,它本身就是成兑出现,对吧?他在咱们沙甫交换的时候,它会本地执行一个aggregate,那么在杀否完之后呢,Reduce端它也会进行一个聚合,它本身就实现的这个功能,这个呢,就像咱们经常讲的hipe Mr里面的提前combine,那如果咱们使用的是RDD或者其他的一些算子去操作的话,咱们建议使用这种reduce by啊,Aggregate by key啊。这种。像这种算子的话,本身他们也是会在本地先进行预聚合,之后呢,不同分区之间汇总到一起在啊全局聚合,也就是说其实Spark蛇口这一块还做得比较好啊,那这一块呢,咱们就是。
01:08
这边列出来就是想给大家提醒一下,另外一点就是尽量单独使用一个group by计算子,就是RDD操作的时候啊啊,你要么就呃经常分完组,你肯定是有些其他的需求的,像一些聚合干啥的,那你啊还是用reduce by key或者aggregate白key会更好一点啊,这是就这么一点事啊,给大家做一个小提醒。
我来说两句