00:00
好,刚才呢,我们介绍了这几种压缩方式啊,那下面呢,我们看一看,那这么多压缩方式,它有各自的相应的这个优缺点,那么我们如何来选择呢?这是下面我们接下来要面临的问题啊好,那我们一个一个列啊,看看在什么场景下适合使用什么压缩。这个呢,是这个机令啊。优点呢是压缩率比较高。压缩的可以对吧,嗯,而且呢,压缩和减压速度也还比较快,相对于这个GD变度啊啊也比较快啊。而且还得本身支持自带的啊,它直接可以拿过来使用在应用中呢,处理这个G列表格式的文件就和直接处理文本评价。非常简单哈,大部分linu系统都自带基法命令。使用方。这是它的一个特点是。比较高假格率。然后呢,压缩速度和减压速度也都还可以啊。
01:01
但是他可不可以这个。积分呢?不支持结费。那么你想想,他不支是切分,它处理的数据能不能放在这个map。Ma之前的数据是不是最好是?能切分的,比如说前面来一个2G的数据,是很想把它切分掉之后进入到外面。应用场景,当每个文件压缩之后,在130兆以内。对,就是跟这个块大小差不多。都可以考虑使用。这个压分格式使用。不方便呢,比如说你可以是一天的数据,也可以是一小时的数据。大小正好跟130兆啊。或者128差不多,那是就OK了,不是一到切片啊。他你这个文件,比如说你135或者120,这都没啥大的区别啊。
02:06
那这个呢,基本上哈。天一小时的话。达到130兆。OK,这是D这方,那下面再看看一下这个BZ方。那他是支持芯片,这个就优势很明显啊。知识积分具有很高的这个压缩力。压的特别特别细啊啊,压的特别特别细啊,特别慢啊。呃,比这个G压缩率高得多。拍本身的自带也使用方便,它也是系统自带的。节电啊,那缺点呢,是压缩解压缩速度。就是它的鸭的这个质量比较高啊。那同样道理呢,对应着它的压缩和解压缩速度呢,也就慢下来了啊。适用的场景。
03:00
适合对这个速度要求不高,慢慢干的这种。但需要的较高的压缩率。你说压缩这个程度越高越好。比如说你将100兆的内容。通过它压缩之后变成一兆。那最好了。啊,他希望是这样的啊。那或者呢什么呢,输出之后的数据比较大,处理之后的数据需要压缩存档,减少磁盘空间,并且以后数据用的比较少的情况。什么情况呢?哎,相当于是对这个整个你这个机器上ADFS数据的一个历史数据的一个备份放到一个。地方进行压缩存储。压缩的过程,压缩率极高,那么它存储空间就极小。同时呢,这个数据呢,我不会经常性的把你再解压出来进行再一个查看,只。只是非常偶尔的查一下。呢,就是放在这历史。
04:00
一直在等待是吧。这意思哈。另一个呢,是对单个很大的这个文本文件想压缩,减少磁盘存储空间。同时呢,又需要支持。那而且呢,这个兼容之前应用程序。关键一个是这个。切分啊,能切分,不管你多大,我可以切分出来啊,处理另一个呢,是兼容之前的程序。啊,还有呢,就是这种把这个数据呢,使用压缩完之后啊,不要再经常使用的这种数。那这是b two,那下来呢,再看一下拉。他的优点。压缩、解压缩速度都。比较快。合理的压缩率,压缩力还行。真实的是那种。现在这。的一大特点是BD中最流行的压缩格式,应该加油之一啊。
05:00
可以在Linux系统下安装命令。支持积分,同时压缩速度和解压缩速度都比较快。缺点呢是压缩率比这个G这表速啊,G这要低一些。肯定打的快嘛啊。就抄一些他的本身呢,不支持需要安装。进行安装。在应用中呢,对拉住了格式文件需要做一些特殊处理。主要是为了这个支持这个积分,需要建一些索引啊。应用场景呢,是一个很大的文本文件,压缩之后还大于。那大于200兆是不是还要再进行区分呢?允许积分,这种就合理考虑。呃,而且呢,单个文件越大,拉着罗的优势越明显。就是因为他支持。这是它的一个场景。那下面我们来看一看啊,更猛的一个来。
06:04
的特点呢,就是高速压缩速度和合理的压缩力。它不支持切分压缩率呢,比这个基肋管要低啊。本身不支持,需要安装,这是它的缺点。那么它适合什么场景呢?当map就是作业的map输出的数据比较大的时候。看啊,这是map阶段,这是reduce阶段,这是前一级数据,中间一级数据,Reduce之后的数据。那你想想这个Y适合哪一级数据?前一集是不适。便宜题是不是适合这种有结分的,能结分的,哎,那么适不是适合这个地方。是不是非常适合这这一集啊,对吧?哎,我直接这个压缩完之后,你前一节不涉及到一个切分问题,你传进来的是不是都是128兆的每大块啊啊这么大块,然后对它进行一个。压缩和压缩,那么减少这个吃饭这个IO传输内容,那么在radio端适不适合的。
07:10
是水调端一般是这个将这个数据进行一个相应的存储了。这个最多的是在这个中间这一块啊。作为map到reduce中间数据的压缩格式啊,或者作为map作业的输出和另外一个map作业的输入,也就是说他在如果说作为reduce端的输出的时候,那么呢,下一集一定会去读它。啊,距多大。就是再开一个照啊,连接的照,把这个数据直接读进来,但是读进来你要求你这个数据啊,压缩完的数据不能。什么叫不能太大呢?比如说你要变成2G了之后。分数就不合适了。原因就是因为它不能。先这样啊,OK。这点要注意一下,最主要的就是在这个map之后大量使用这个。
我来说两句