00:00
好,下面呢,我们来讲一下HDFS的优缺点啊,看他擅长做什么,不擅长做什么。第一个优点。高融创性啊。那这个融合性怎么体现的呢?主要是呢,它能自动保存多个块,默认是几个。三个OK,它通过增加副本的形式提高这个特性。三个副本。那三分怎么玩呢?突然有一天挂掉了,比如说班长电脑吧。因为班长来说还有这个。警方来分,还有谁呢?还有十位来分啊。三人。那电脑班长电脑都会比较八门了。挂掉,那挂掉之后是不是我这个。就完蛋了呢?是这样的啊,它一旦挂掉之后。他会把这个副本啊。再增加,如果说在这里面再增加其他服务器,把这个副本备份到其他服务器上。
01:02
它可以自动的拷过来啊。同时呢,也可以认为他虽然挂掉了,是不是还有至少还有两个。至少还有两个,这个能保证它的可靠性啊。那再来某一个副本,丢失以后可以自动的恢复,这就是我刚才说的这三个副本有一个挂掉了,挂掉怎么办呢?他不光呢,原来有两份,他还要保证你三份的这个副本的一个总数。把这个副本再刻录给他。始终,这地上都是上海。啊,除非这个服务器的资源不够用。比如说你一共现在有三台服务器。你想让他杀十个副本?直到他达到十个的时候,那可以。有社会啊。OK,再往下适合处理这个大数据。数据量越大越好。数据规模呢?能够处理数据的规模达到GBGB,甚至是GB。
02:00
现在PP级的公司是越来越多啊,越来越多。前两天这个二期的二期的一个老学员。一个很很了不得,不是很小的一个公司啊,我都没太在意。公司啊。数据量居然每天能达到?250。啊。那很快就会达到这个。因为他也告诉你了。它那个数据库里面就有。再往下文件规模,能够处理百万规模以上的文件数量。买完了,现在都是各种一条一条的。啊,甚至像数据量相当大啊,这个是数据量大,这个呢,是这个存储的空间大啊。两个方向。那这个呢,可以构建在廉价的机上啊,通过多数机制提高的可靠性。
03:02
那这个就是我刚才说的啊,连班长的电脑都能作为服务器。啊,这就是这个大数据,这个DS的一个魅力。以前是不敢想象。那上回就忘了。现在呢,是没问题。就是它的优点,那告诉他的缺点啊,你得知道他不适合做什么,那么在你这个项目选型的时候,那有一些应用场景。那你就不能再选S了。不适合低延时的这个数据访问。就是要求这个访问速度特别快的毫秒级。那你别选他了啊。他不是。这个呢是无法高效的对大量小文件进行。他不适合这种各种小文件的环境。为什么提到一个小文件,他就不适合呢?跟你说内部动的是不是有一个内存呢。
04:00
比如说内目前比较主流的服务器是128G,或者是2506G的这个内存服务器啊内。那这么大一个空间。那么它这里面存储每一个文件至少要消费150个之间。大空间。无论你存的这个文件是1KB还是。他都需要这么大的。那如果你这里面全部都是大量的小文件,那是不是。就你这个效率是不是特别低啊,直接把这个内存全部占用了。存出来吗?那相反,如果你这里面存的都是128兆的这个数据,那你相对来说你存的数据就多是多少。这个意思啊,而且这个小文件在后面的几天的日子里面,我会反复反复的去说啊。它是企业开发的一个痛点。包括上次跟老学员吃饭的时候也是,就是。说了这个小文件确确实实哈小文件把。
05:00
这么坏?前两天跑一个程序发产生几百万个。百万个小金。看一个集群。好几次了吧。这个内存一共就128G,卡了就没了啊。那就很痛苦,所以说你要对这个小文件进行各种的合并处理啊。回家了。后面会教大家啊,如何来优化这个文件啊。OK,那再往下。存储大量小文件的话,它会再用内部的大量的内存来存储文件五。和块信息,这是不可取的,因为内部的内存总是有限的啊,就是刚才。说的这个。那再往下呢,是小文件存储的寻址时间会超过主体时间,违反了键盘设计的目标,什么意思呢?你这个小文件选址在这里,有几百万个小文件。我找的时候,我是一个一个的查便利。
06:02
那么这个寻指的时间呢,很短啊很长,但是呢,我实际读的时候可能就一条一下读回来了。可以密码对吧,秒。今天不过来了啊。那费了半天劲,找到他,一下搞定,你说呢,你想跟班长说句话?你想找班长?找到他之后就说了一句话。那效率很低是吧,找到他至少得来个十块钱的吧啊。多聊一聊啊。这是这个意思啊,好提高它的效率。不支持并发写入文件的随机修改。什么意思啊,这个。这是TS,这是你要上传的文件。他上传,那么这边呢,也想往这个送点T里面去上传,那这种并发呢,它就不支持的。啊,只允许一个人向这个文件里面去写东西啊。一个文件只能。有一个写,不允许多个线程同时去写这个数条。
07:02
再往下,仅支持数据的这个追加,不支持文件的随机修改。比如说在整个这个文件当中,你这边有大量的东西,它只支持的是个pad,也是在末尾去追加一些内容,并不支持。比如说第一个,我想把它原来写的是张三。我想把张三的名字改成李四。这个支持不了,你可以把理事追加到末尾就。啊,轻微的手感。OK,这是HDFS的优点和缺点。清楚它的优点和缺点,在技术选型的时候啊。不犯一些低级错误啊。
我来说两句