00:00
呃,第一张HDFS的概述啊,整个这一张呢,都属于这个,呃,两点内容,唯独有一个地方也就是这个一点是NDS文件块的大小这一块啊。有一道面题,大家再说一下。这,这下的地方一个乐口啊,来,我们开始。来今天FS产生的背景。啊,随着数据量越来越大,在一个操作系统存不下所有数据,那么就分配到更多的操作系统管理的盘中。那很简单啊,比如说目前我们超系统啊,你有一个超系统是8G的。只有啊8G的附近,那8G附近,那你这个数据呢,如果说是十个G。那存不下来个重序怎么办呢?哎。来来两台服务器呗。一个纯8G,两。就16G了,那我再说你的十际出去我就。就这事儿。所以说那么分配到更多的操作系统管理的值盘中,但是呢,这种不方便管理和维护,怎么叫不方便管理的呢。
01:03
这是两台服务器。你这是8G的数据啊,实际的数据那。我往这里面存量T这里面。那我这里面存的是什么?这里面存的是什么?啊,我这样来读取的时候,是不是得有一个人告诉我。需要底层代码去写一些,去管理它。那要是每个这个公司都需要去写这么一条代码。不用改名了,开发这个系统之后,估计他那套应用程序也该。而且有些公司呢,根本就不具备这个实力。啊。那么就迫切的需要一种系统来管理多台机器上的文件。啊,这就是分布文件管理系统。多个集群。去做一件事情。HDFS只是分布式文件管理系统当中的。它只是一种啊。那你看一看,我们之前还遇到过哪些管理?
02:06
啊,右键出现。这是我们电脑的对吧?啊,我们电脑的文件系统是。贴。啊,采用的是这种管理系统,管理的整个电脑上的啊所有的文件。是他的国际关系。那我们那个大数集群呢,采用的是累计。DS这个。都是管理文件。把一些底层的事情统一的都用这个软件来做。OK。那下边呢,是HDFS的一个定义,我们来看。今天的简写的是拍度吧。DC表的分布式。文件file这种系统。它是一个文件系统,用于呢存储文件。通过目录数来定位文件。
03:02
生素带都。深刻体会是吧,啊已经。用老久了啊。层结构,金盛呢,它是分布式的。也能感受到,之前呢,定义的是三台服务器有。二言论三言论四。由多个服务器联合起来实现其功能,机器中的服务器呢?各有各自的角色。的一个是note啊。有的。的,是地的。振东呢,是实实在在纯属出去的,各干各的活儿。在这。他把我们之前的痛点。啊,那下面看一看这个一的使用场景,它并不适合这个所有场景。一定的局限性。比如说它适合的是一次写。多次读书的场景。他跟谁有区别呢?比如说买社保。白色装的话是不是正常改啥的,速度是超级快啊。超级溜他。
04:00
他不擅长,他只擅长一式写入行。多是读。可以往这个集群上疯狂的去写出去。它的特点就是打。空间多啊。随便来,我可以多个给你备份,各种备份。但是一个文件存了好几份儿都没问题。而且呢,不支持这个文件的修改。比如说一旦这个传上来,比如说这个拿出一个文件啊,这里面写了一堆数,那我不擅长把这个文件拿读出来,再把这个改了。他不擅长这个,不擅长这文件修改。呃,适合用来做数据分析,并不适合用来做网盘,这网盘就涉及到这个增删查看。那数据分析呢,就是啥样的产品呢。甚至有海量的数据,各种各样的数据。比如说啊一个电商网站,电商网站,诶这个是。换衣服的。这个呢是卖这个。
05:02
卖药的。这个是卖卖床的等等一堆各种类型,那么每一个类型他都可以给你个备份,甚至说我这个类型里面既包括卖衣服的,又包括这个卖保健品的啊等等。没事儿啊,复制一份啊。轻松搞定。他就。大吗?处理海量的数据吗?充分体现它存的特点。但是你要想把这个数据改。千万别找他。再一个特点呢,是什么呢?它的速度慢。它的读写速度可没有买时候快啊。你想让他做做一些,呃,这个实时的处理的美容。或者其他的这个数据框架。这是累计这里。
我来说两句