00:00
好,接下来呢,我们讲一下这个6.3HTFS小文件的优化啊。前面呢,呃,总结的是MAS的优化方法,其实呢,也都叫这个。呃,嗨动的优化手段。那如果你稍微细分的一话呢,细分的一下呢,就是上面这些都是针对60%,下面呢是针对的是as。如果让你说整个三动优化手段,那是不是两个都得数啊?对数啊,好,那家看一下ad小文件有哪些弊端,相信讲到这的时候大家都应该清楚楚楚了吧啊。非常清楚这个小文件到底有哪些名单。什么弊端呢?呃,上每个文件都要在内上建立索引,这都知道啊,这个索引的大小是150个之间啊。这样呢,当小文件比较多的时候,就。会产生很多的索引文件。导致什么呢?呃,一方面会大量占用内部的内存空间,这个只不必多说了啊。
01:03
另一方面呢,就是索引文件过大,使得索引的速度。这个显而易见的。Not的,这个内存钥匙不够用啊。让你整个机器就瘫痪了。那另一方面呢,如果你这个减少速度很慢,那用起来呢,也是超级不爽哈。呃,下面呢,看一下这个小文件的解决方案。有什么几种?小件优化无非从以下几种方式去考虑,第一方面呢,是在数据采集的时候。将小文件或者小批数据整合成大的文件再上传。这个是采用什么手段,还记得吗?呃,采集的时候将小文件或小批的这个数据合并成一个。其实呢,可以采用这个啊,这种文件,将小文件合并成这个。大的文件之后上传上去啊。
02:02
那在业务处理之前,A上使用MAP6程序对小文件进行合并,那这个呢,可以采用。泡泡是吧,啊,这个归档以及施工file啊,这两个都行。看看大家还记不记得啊?我们最开始学的就是姜文健。归档。归档的是一个高效的将小文件存入这个HS块通的文。文件存档工具。它能够将多个小文件打包成。这样呢,就减少了这个内蒙的内存。还记得这个哈包是咋回事了吗?这边有一个一个的小文件,对吧?啊,这边是那弄的。那如果说你直接对它的话,那占用你这个内部内存非常多,那现在呢,咔把它封装在一起对外呢,就相当于是不是只有一个。啊,但是对内呢,又是一个一个的。
03:01
件啊。对外是一个整体,对内呢是一个。那啊,其实呢,它跟这个哈包啊非常类似,只不过是存储格式不一样。S呢?是由一系列的二进制P组成。如果key为文件名,Y论文文件的内容。这可以将大D小文件变成一个。那它的特点也是对外的话,它就是一个文件。对内的话呢,你可以通过这种KV的形式啊。传输P,取出相应的Y流值。能形成这个,呃,不改变啊,文件的这个。格式哈,存储格式,比如说。数方式,否则的话,你可能要把它合并到一起,变成一个。那下面呢,是combine的。那这个。它是一个这个新的内部,用于将多个文件转变成一个。
04:00
单独的鞋垫。这个就是在运算过程当中啊,如果有小文件,那我就给你分并成。这个呢是比较常用的啊,另外呢,会考虑数据的这个存储位置。这个记。那下面还有一个哈。开启GM重用。这个呢,是。之前的那个都是我们讲过的,那开启机关重用的,呃,之前是没给大家说过的。对于大量的小文件可以开启GM重用,会减少45%的运行时间。效率非常之明显。这个呢,是在哪被验证过呢。都没验证过啊。开启这个GM能。大量的提高这个速度哈。重复的原理是什么呢?一个map运行在GM上啊。开启重用的话,该map在JVM上运行完毕后,GM会继续运行其他map,于是这个JM啊。
05:07
它不关闭啊,一直是打开的,相当于是一个池子啊,一直在运行,一直在运行。啊,那这样呢,就是减少了这个开关的一个时间,原因就是因为你这个文件很小啊,很快就处理完了。啊,很快就处理完了,那反而我这个开关的时间比你这个处理的时间都都长。那这样呢,就开启了GM。就非常有用。这个。啊,禁止参数呢,就可以设置啊啊。比如说呢,你这个,呃,这个G线程池里面啊,有多少个这个。可以去设置啊。多少个开启?是和平。蒋文建。
我来说两句