00:00
好,接下来呢,我们讲一下这个reduce task工作机制。Video,它属于呢前一级的所有的map全部处理完之后才会开启video。那么来看一看。这个也是在面试的过程中,哎,这个面试官呢,会问的比较专业一些,也就是说在你整个reduce test工作过程当中,一共分了多少个阶段?啊,每个阶段做了什么事情。这里面包括copy的拷贝。末阶段合并啊,上阶段排序radio阶段。处理相应的业务逻辑。拷贝阶段是属于什么呢?所有的map task结束之后。他要将这对应分区下的数据。通拷贝到研究水平去,在这里面谁主动呢?哎,也就是主动的啊,Map是被动型的。
01:01
也就呢,相当于班长是吧。一个被动型的,相当于。对吧,是这样的。那开启相应的你就态车之后,哎,然后把这个数据呢。宝贝,过来啊。拷贝对应分区的数据。啊,你是处理哪个分区的,就考厂。考完之后考到这儿。如果这个数据量比较小啊,没有达到你内存的上限,设置的内存上限,那就会把这个数据放到。如果存不下了。一写到是吧啊。题了是吧。合并啊,一写,不管你是一写到磁盘还是在内存当中的数据,我最终都要将你多个文件合并成一个大的有序的。OK吧,哎,这是前提啊,必须合并成大的有趣的。OK,那下面将它们相同P的数据。
02:03
相同K的数据拷贝到。一个reduce方法里面去,比如这相同吗?一比较相同,那都进入到reduce里面去进行一个。累加是吧,啊,基本上都是累加啊。进行业务的处理,那这块呢,稍微有一个插曲就是说。有一个分组。如果这地方啊,你看这个A,你可能会比较别扭,我问你,哎,如果说把它变成一个日。不治的字段啊。比如说换成什么呢?换成ID。有ID,有价格。还有什么呢?还有价格。分类吧啊。分类型,Class。啊等等一些类型,比如说这三个字段,那我就想把只要这个价格相同的,我就放到一个里面去。其他ID和和这个分类都可以不同。而且前提什么呢?这个数据已经到达了。
03:06
啊,你要在麦克端,你还可以处理这个数据,已经到了这个零六端。如何来对它进行处理,我就想让它价格相同的进入到这里面去。它是不是就涉及到了一个。排序。把它分出,只比较它们的价格,只要价格相同,我就认为他们是同一个对象,进入到同一个reduce式里面去。这是分组。那其实在这个过程当中。呃,这里面就是涉及到了一个排序啊。其实这块准确来说。分组和排序就是个茉莉和萨。就是在一起的哈。这个word就是内存中数据放不下了,是不是要一写啊啊一写完之后对这个整体的数据呢,进行一个规避。托级和上,基本上就属于这个阶段哈。可以把它放在一起,那最后一个阶段呢,就是reducer,那就是对应的。
04:07
那最终呢是输出啊,把数据呢,通过这个test out out把数。输入键。这是整个一个过程哈,Reduce task。
我来说两句