00:00
好,接下来呢,我们讲一下这个第四章开动法数据的压缩。这个压缩呀,很重要啊,很重要啊,真正的在企业开发当中啊,都会采用这个对数据进行一个压缩,因为呢,他对这个提升MR运行的这个速度啊非常。呃,这个呢,也是咱们这互加的,呃,之前第一期班的时候还没有呢啊,在第二期班之后啊,我才。引进来啊,这些东西呢,都是从那个秦老师啊,他弄的。我们来看一看啊,这个压缩。4.1概述。压缩技术呢,能够有效减少底层存储系统,比如说HS,它的一个读写直接数。压缩呢,提高了网络带宽和磁盘空间的一个效率。因为把一个很大的东西压缩到很小嘛,对吧。很小。在运行MR程序的时候,IO操作、网络、数据传输和墨这些过程都要花费大量的时间。
01:09
尤其是这个数据规模很大和工作负载密集。那因此呢,使用这个压缩就显得非常重要啊,你把这个大的数据。大的数据压缩成这么小。啊,那传说的速度就快的多的多了。可能你觉得这个啊。不怎么样,但是你想想你很多很多数据,每个都压缩一点点,那。它这个性能就高。你比较小,会着急精神是吧。确实符合自己的logo特征。来,那鉴于这个磁盘IO和网络带宽是开拓的这个宝贵资源,尤其这个网络传输啊,带宽这些数据压缩对于节省资源啊,最小化磁盘和网络传输。
02:00
非常有用,可以在任意外就阶段启用压缩。那么map reduce的任意阶段,那么map分几个阶段呢?不是卖吧?MR分成几个阶段。两个阶段,一个map阶段,一个六阶段,那就分为map的前一级。卖不到。后一集是不是reduce之前呢?那还有reduce的。都可以采用压缩,那么具体怎么采用压缩啊?后面再说啊。但这里面要注意,不过呢,尽管这个压缩和解压缩操作的CPU开销不高。你想压缩和解压缩这个过程。不得算呐。是不是得耗有耗一定的这个CPU使用情况啊。肯定是要的啊,但是呢,其性能提升和资源的节省并非没有代价啊。是有代价的,你是要付出一些CPU的额外开销的。来看。
03:00
压缩是提高还运行的一种优化策略,这没啥说的啊。在企业开发中大量使用,通过对这个map和水丢失运行过程的数据呢进行压缩,减少磁盘,提高mmr运行的速度。这里面要注意的。采用了这个压缩技术,减少了磁盘,但同时增加了CPU的运算负担。所以压缩特性。运用得当使性能提高,运用不得当也可能降低性能。双刃剑。软件用好了。要把自己删了是吧。OK。那这呢,是压缩的基本原则。第一个运算密集型的造法,少用压缩。叫运算比。是不是这个运算过程当中涉及到大量的算法公式是不是很复杂呀?啊,那这种呢,就不要用压缩。不要压缩,你想算一个数,我压缩一下啊,然后呢,再我再想算下一步的时候,再解压出来再算,算完之后再压缩。
04:05
那是不是效率极低啊?那什么样的适合这种压缩呢?IO密集型。就是这个数啊。传过来啊,再传过去啊等等,就是一个传递的过程,那在传输的过程当中,那我就把这么大的数据变成这么小之后再传输。穿上之后,我想用的时候,我再给它放大。所以说这个原则呢,是这样的,运算B题型少。少用压缩IO进行的,多用这个压缩。在企业开发中啊,其实正常的情况下,大量的都是这种IO的。
我来说两句