00:00
好,接下来呢,我们来说一下这个小文件的分档小文件,这个是你们日后。嗨,多之前吧,啊,整个这个过程当中啊,我天天去唠叨这个事儿啊,小文建呢是。非常非常重要的啊,是你企业优化的一个重要的手段啊,如何来处理这小文件是。困扰H是最大的一个问题。为什么说这个脚健是困扰最大问题呢?原因就在于你这个内的这个存储空间是有限的。用128G或者256G。那么你存储了小文件。他是不是也占150这个时间。存储大文件也在150个之间。啊,我跟你说一下那个前一阵我跟那个京东老师吃饭,他说了我跑一个M2下来。改成几百万个小。几百八个。长的吧,乘150个直接。那你跑,再跑几圈。其实已经到了啊,就那个的已经空间不够了。
01:00
所以说这个是很痛苦很痛苦的。所以说他们在讨论MR之后第一件处理的事情是什么呢?将这个小文件进行一个整。合哎。整合成类似的一个大。那这样呢,这个内存它就降下来了。当然了,这个处理这个小文件呢,这个方式有很多很多种,后面我们会每天增加一个,每天增加一个。最终呢,到这个MA6的时候,我还给大家汇总啊。在MA60最后一张。也就是说这个企业级优化这块,专门有一张是对这个小文件。优化的手段啊,其实前面呢,已经把这些手段呢都讲完了,那今天这个学的这个。南春档啊,或者说微档,它只是其中的一。OK,那下面呢,我们来看一看具体这些文件是怎么回事。Is存储小文件有弊端?到底什么弊端呢?其实我刚才已经大概说了一下。
02:01
我稍微看一下,每个文件均按块进行清除。存储每个块的原数据呢,存储在内内存中。因此,雷电外置存储小文件会非常低效。因为一块它默认就是128兆嘛,对吧。一个文件就一百八张。因为大量的小件会耗尽内漏中大部分内存。效率非常低,你存1K的数据也在150之间,你。那128同样也是K。同样还是这个150个资金。双方肯定选择出大。但注意存储小文件所需要的磁盘容量和数据块的大小。无关啊。这个是之前我提过啊,比如说你存储1K的数据。虽然说给你分配了128兆这么大一块。他是不是没有把128兆全部占满呢。他只占了其中的K。是这个意思,比如说这里面举个例子,例如一兆的这个文件设置呢,为128兆的这个块存储。
03:05
其实实际使用空间还是一兆。是这个事儿啊。OK,那往下解决存储小文件的办法之一。之一的一种啊。As归档文件和括号文件。这个号文件就是归档文件吗?只是它的文件形式呢,叫。它是一个更高效的文件存档工具。将文件存入到。减少内部的内存使用的同时,允许对文件进行透明的。看这句话可能不是特别清楚。下面。具体来说,As存档文件对内是一个一个的。对内弄的却是一个整体。这是内动的。这是一堆一堆的小文件。那经过归档之后是一个什么样的状态呢?
04:03
他相当于在外面包了一层。啊,这种协议呢,就是。啊,包成这种号文件,那么对这个内部而言,比如说一堆,那就。但是呢,这些小文件呢,你想访问,你还可以按照一个一个的去。对内是一个一个的文件,对外是。相当于包了一场。存档成一个文件,内部道德认为是一个整体啊,其实内部的实际是多个文件。这个是这种形式,其实后面我们还有其他形式。也是类似这种套路啊。好,那这是理论部分,那下面呢,我们来实操一下。呃,实操呢,需要你去启动你这个集群的牙,这个是必须要起的啊。
05:02
阿飞,你点休息。好了,牙已经启动起来了啊,那就OK了。下面呢,我们来按照他这个步骤啊,一步一步走,第一步叫归档文件。将这个优艾硅谷铺的附录下的所有文件归档成一个号。首先得有这个目录,得有文件吧。目前还没有对吧,没有的话我们传一下。多F-make-T就是。他就买S杠不。
06:02
楼下有一个小。到。那再来。好,那这个就在一起了,那我们来看一看。来到这,我是安新用爱硅谷input。这仨人啊,在一起。这三个文件,我先想将这三个文件归档成一个大。那怎么办呢?这里面有相应的这个语法啊,这个语法是什么呢?叫b hi度下面high度下面有一个。
07:00
啊,这是。是吧?这不有网吗?钱都怎么过的吗,这个。就是各种。那个金山词霸加。行,那阿凯我说。比较别扭啊,啊就是归档啊,我们可以看一下啊,这个是怎么玩的。直接打开吧。你还在往下面呢,这里面有这么多命令,其中哪一个呢,这个。I have杠,I have name。这也是固定写法,前面这个都是固定写法,后面呢有一个name,这个name是什么呢?就说你归档之后的文件名是什么。
08:05
比如说你刚才要处理的是一呃I硅谷下面有个input,里面有三个文件,所以说这三个文件最终打包成一个文件,那这个文件的名字是什么?那这里面你起完名字之后,还一定要注意这个名字后面要加一个。表示的是号文件。啊,这也要注意。你要不加这号不行啊。可以说前面比如说是input的,就是音input的点号。然后之后呢,是杠P。招聘呢,其实是指定这个相的数据源啊。目的地,比如说指定你要对哪一个路径上的文件进行。就是U的硅谷一步的对吧,对他进行归档,那么你归档完之后的文件是不是得存在一个地方。啊,那我们再存一个目录。转到这个二。右前面是右。
09:02
就是这么一个过程啊,那我们来写一下,稍微写一下。这就是开动吧啊。然后干。然后起个名字,音破的点好。然后呢,杠P输入径是。规模。输出入境的是U微博。二的有没有这个文件夹呢?啊,一定是没有这个跟大数据那个是一样的啊。说没有了。目前。好了,我们来做一下。雅安吗?为什么要起雅安呢?就这原因。
10:05
是卖不起来了。起来了。卖100%,也就是。练习完毕,那我们来看一下结果。刷新不了。那看一下out里面是什么?应付得了哈,没问题点。感觉我原来那个商务文件都没了,班长啊,这个小潘啊,还在一起说,都没了。不知隐藏在哪了呢?在哪里呢?这个我点。可以不下吗?我问你。这点呢?是不是隐藏在哪,我们这个没找对呢,在哪。那就把FS。LS。
11:00
哪些东西呢?就是硅谷。查。还是不对,对吧,还是不对,那我再来查。阴部的点。然后结果都是结论就是老师你骗我,这对他就是一个整体对吧,啊对内呢,是看不到这个一个一个文件。往这来。这个手段对号冒号,写个。班长小潘在一起。这意思吧?什么原因呢?那你猜这是一个什么东西?协议是吧,因为我们之前学过的是ADS。FS啊,冒号斜杠斜杠对吧,后面跟着主机名称逗号,那我说这是AF协议之前我们还有HTTP。
12:01
冒号行量几量是吧,哎,不同的协议,那么你要想解析这个协议,那就得用这种。看不见,那我就用哈协议去解析,那么这里的内容啊,那怎么恢复呢。可以完全当这个里面的内容,把它拷贝出来。都是可以的。你能看到它,那这个你要操作入径就这。对吧,也是对它进行复制啊,移动啊拷贝啊啊等等都。这就是他的魅力,对外呢,是一个一个的整体。带着水。那对内呢,其实它就是一个一个的。那这样呢,就减少了内部的一个压力啊。这这种方式呢,是比较重要的啊,在开发过程中啊,也是这个。
我来说两句