00:00
好,接下来我们来看一下HS对应的优缺点,首先来看一下它的优点。第一个高容错性,高容错性我们在讲这个。呃,还入门的时候其实讲过对吧。其中呢,说数据啊,自动保存多个副本,它可以增加副本的形式,提高融合性,怎么理解了,比如说这里面有三个副本,对吧,三个副本其中一个副本挂掉了,那他会怎么办呢。他会。自动的复制一个副本。那当然你得有有相应的机器哈,你别没有那么多机器,那不行啊,比如说你有四台机器,那其中挂掉一个副本,那它自动会拷贝到下一个服务器上。那再往下走,适合呢?处理大数据的场景。比如说我这个数据规模,一个文件大小在GBPB,甚至PB这么多数据我都能够进行处理。哎,非常强大哈。那再往上,那如果说这个文件不大,非常小,但是呢,我很多,我能不能处理呢?能处理,你即使有几百万个文件,我也都能够正常处理,比如说无论你是文件个数很多,还是某一个文件很大,都没有问题。
01:18
再往上。可以构建在廉价的机器上,这个很硬核啊。你像以前在大数据开发的时候啊,都是买那种啊小型机,每一台机器啊都几百万。那性能非常好,但是呢,价格也非常贵。那这个处理大数据呢,呃,这个好多公司没有这个成本啊,没有这个钱去做啊。那现在呢,大家可以部署在这种廉价机器上,就咱们这种普通笔记本都能当成服务器进行处理,因为有副本概念呢,你这个挂了,我可以往别的机器上复复制嘛。哎,所以说这个呃很好用啊,呃,这也是为什么大数据能快速落地的一个原因,比如说机器啊,越来越便宜了哈。
02:00
那看一看这个ADS有哪些缺点,那第一个不适合这种低延时的数据访问,比如说毫秒级的数据存储,那它是做不到的,你说我想拿这个ADPS类似于做到像买Q这种快速的查询,快速的正常查行不行,对不起,他不擅长这个。他擅长的是快速的把数据存进去,然后进行查询,哎,只适合查询啊,查询这个数据量越大越有优势,那你像MYSQL里面,你要往里面灌一个,呃,1PB的数据,它根本就存不下啊。这是不同的应用场景啊,说无法高效的对大量小文件进行存储。这是它的一个问题啊,因为呢,呃,像内漏呢,我们正常在生产环境下呢,是128G的一个内存来存储。文件啊,Name node,那它能存多少文件呢?给大家留一个作业啊,一个文件块占用150个字节。哎,记住哈,我说的是一个文件块的一个存储。
03:00
那这一个文件块呢,你可以是128兆,也可以是1KB。对不对,不管你多大,它都是一个文件块,都要占用150字节,那如果你这里存储的是大量的小文件,比如说1KB。那有可能就会把你弹占满。128G的。内存能存储多少小文件呢?诶。存储9亿个,留个作业,告诉大家怎么算呢?留个作业啊啊,大家回去思考一下,128G的这个内存,每一个文件块呢,是150字节,算出来最终能存储9亿多个文件框,怎么算的?哎,作业后面呢,会给大家讲啊,先留一个思考。再往上,小文件存储的寻址时间会超过读取时间,它违反了as的一个设计原则啊,也就是说如果你小文件太多,特别多对不对,那到检索的过程的时间都比你读这个文件的这个时间。要长你看啊,我要找到这个文件,我可能花了十分钟啊,我举个例子哈,只是。
04:03
那么我读这个文件可能一秒钟对不对。嗯。那这个就非常慢了,那就类似于这个宋老师对吧?啊要去一个呃,足疗店,找这个足疗店花了十分钟,那去了之后呢。啊,他只用了两秒钟。就离开了,对不对,嗯。那我们来看哈,说不支持并发写入文件的随机修改。那怎么理解呢?说一个文件只能有一个写,不允许有多个线程同时写。比如说我这个as看啊,我有一个文件往这里面上传,比如说写操作。那他不允许有再有一个。客户端也写这个文件,同时都写一个。啊,同一个路径那不行啊,它不允许多线程并发的写啊,就是一个一个写,你要不你你来写啊,要不你来你来写啊。再来说仅支持数据的一个追加,不支持文件的一个修改啊,刚才已经给大家演示了,比如说你正查这个文件啊,诶,它可以在这个末尾进行往下写,但是呢,不允许说修改历史的这种数据,这个是不允许的。
05:12
这就是as相关的一个特点啊,有优点有缺点。那你只有知道它的优缺点,那后续你再进行框架技术选型的时候,才能更有针对性啊,这个一定要了解它的优势和劣势。
我来说两句