00:00
下面呢,是这个压缩位置的一个选择啊,刚才讲了那么多压缩这个方式啊,那么到底哪一种压缩方式适合在这个MR的哪一个阶段去使用。啊,这个是大家比较关心的啊,好,我们来看一下。一共呢卖六啊分两个阶段,那就包括卖六前一级,中间一级和最后的输出啊。那看一看map呢,它是怎么做的。在大量数据并计划重复处理的情况下,应该考虑对输入的。进行压缩啊,其实对输入数据进行压缩啊,然而你无需显示指定这些使用的编码方式。开动了自动检查文件的扩展名称,也就是说,如果你这个数据是压缩的输入数据。你不用做任何的配置。这个麦六自动可以检查到你是不是我。能处理的那。
01:00
它这个自动检查文件扩展名,如果扩展名能够匹配,就会用恰当的编码方式对文件进行一个压缩和压缩。你比如说你是记这个的。G的,那这里面自动能识别啊,如果你这个后缀是这个default啊。等等,直接能识别,包括我们后面,呃,有两个案例就会。就专门去做这个啊。可以看一看,可以实操一下。否则的话,拍豆吧。就不会使用任何编码器进行解码了。那这里面总共稍微总结一下是什么意思呢?如果你输入的这个数据是压缩的数据。并且这个压缩的数据,这种方式在这个MR当中啊。孩子们当中支持这种压缩拿过来。直接就可以处理啊,如果是不支持的,那对不起,他加不了。就这意思啊啊。那接下来呢,说一下这个麦输出采用的压缩。
02:01
呃,如果发现数据量大造成网络传输缓慢,应该考虑使用压缩技术,其实在这个MR当中啊,最需要使用的就是在这个。Map方法之后,Reduce方法之前的。那在这个三发阶段,如果说你想要压缩,那它就会减少一个磁盘的IO啊,主要是传输嘛,啊传输过程,那在这个过程当中可用的压缩的快速的这种方式包括什么呢?拉车融合。啊,这两种压缩方式是。啊,因为它压缩和解压缩速度都非常。就说你这个脉处理完之后啊,快速的给你压缩,压缩完之后一下传过去。然后还能快速的解压锁。因为压缩是为了你减少你网络IO的。传输。所以说这个是这个这两种方式在企业开发中大量使用啊,真的是大量使用哈。
03:03
那这里面有一个柱啊,拉出螺呢,是供开度管压缩数据用到通用的这个。压缩编解码编解码其设计目标呢,是达到以磁盘读取速度相当的一个压缩速度。啊,如果跟磁盘的读写速度一样,那就绝对不会影响你。是吧,啊,正常的一个传输哈,因此速度是优先考虑因素啊,而不是压缩率啊。你在,你在呢。呃,G编解码相比,它的压缩速度是G的。解码速度是G的。内都是完全减压哈啊,同一个文件用这个拉车轮压缩后比用机这压缩大50%。干的超嘛,干的超,嗯。但呢,比这个压缩鞋小了这么多。人家说的并不是那么好。但是呢,我就是快。天下武功,唯快不破是吧?
04:02
那最后呢,是输出采用的这个压缩,在此阶段呢,启用这个压缩技术能够减小要存储的数据量。因此呢,降低所需要的这个磁盘空间,当外调运行作业。形成作业链条时。啊,因为第二个作业的输入已压缩啊,所以启用压缩同样有效,什么意思呢?就是说它最终这个输出的数据是压缩格式啊,往往这个压缩的格式啊,还会作为第二级job的一个。啊,这种场景是比较多的,否则的话,这个数据呢,它就不会让他进行压缩了啊,因为方便我们去查看去读取,因为。毕竟是压缩东西,我们想看的话,必须得写压缩啊。是不一样的哈,所以说只要后期是压缩的话,往往是下一级照的一个输。
我来说两句