00:00
首先第一个这个项目点呢,就是呃,HTFS的多目录存储,多目录存储啊,这个指的是什么啊,呃,实际上啊,咱们正常的一台啊,这个大数据的服务器,那我们的磁盘啊,不可能只有一块啊,啊可能有N多块啊,我这儿呢,可能有一个2T的,可能有一个1T的啊,可能有一个4T的,对不对啊,它可能是这种比较复杂的情况。而且呢,每一个服务器,因为咱们一个大数据集群需要很多的节点,对吧,每一个节点上面呢,我的磁盘可能都不一样,对不对,可能这些节点我是124对吧,那这台呢,我可能是有有有好几个2T的对不对啊,每个都不一样啊,每个都一样啊,那所以说那这个这种针对咱们这种集群的这个复杂的情况,那我们这个HDFS的数据的存储目录呢,那咱们就需要去说一下了。啊,需要就说一下啊,那这会咱们说一个什么东西呢?咱们先看一下一个这个真实的这个生产集群当中的一个服务器的这个磁盘的情况,这是咱们的从一个生产服务器上面那个截图啊,截下来的一个啊来看一下。
01:12
呃,那执行一个DF-H是不是能查看咱们这个,呃,Linux这个分区的情况啊,对不对,来我们看一下,呃,那这个Linux服务器呢,分了很多的区啊,这个都挂载到不同的路径上了,这挂载到跟路径啊,什么dev啊,这个这个这个对不对,这个multi on相当于是咱们挂载的这个什么东西,相当于咱们挂载的分区对吧?啊挂载的分区啊,这个分区可以跟咱们去做类比啊。是不是可以跟咱们Windows上边。啊,咱们的什么D盘C盘E盘是不是跟这个可以做类比啊,对不对,它相当于这样呢,有这么多的盘啊,这么多的盘,然后大家要注意啊,啊,我这一个分区啊,那它是不是,呃不是一个分区啊,就是我的一块磁盘,一块磁盘是不是可以分为多个区啊,对不对,你就好比我这个。啊,我这相当于是,呃,这俩区CC盘和D盘,我这是一块硬盘,我分的两个区,一个呢是一个单独的一个,呃,一个硬盘啊,实际上也可以一个硬盘可以分多个区啊,这个咱们能能能了解就行啊,然后咱们重点说一下啊,看一看它这个数据的分,存数据的分区应该是哪几个啊,它这个存数据分区呢,实际上是我圈出来这几个啊,一个是挂载到这个根路镜下,那这个大小是多少啊。
02:26
3.6个T啊,那一个是在什么HD3下边啊,这个多少个T啊,相当于是一个T吧,对不对,那这个呢,相当于是啊一个T,那下面这个呢,是啊也是四个T,那它这个相当于是是不是就是10T啊,这个纯数据的这个盘对吧,一共是十个T啊十个T好,那既然是这样的话,那大家想想啊,我们前面是不是配过一个这样的路径。这个路径,哪个路径就是它。呃,还做TMMP对不对,那前面咱们讲过这个路径的作用是什么?这个作用就是它能够决定,能够决定什么,能够决定哎,我们这个,呃,Data note存数据的路径和name note存数据的路径对不对啊,那咱们现在我们自己虚拟机里边只有一块磁盘对不对啊,这是一个磁盘,那我们去配置这个路径的时候,那很显然是不是就指指定一个路径就行了呀,咱们指定什么OBD mole啊,什么这个呃,海豆下边有一个date对不对,咱们就指定一个路就行了,但是你要知道我们实际上一个服务器应该有多块磁盘呢?
03:27
应该有多块磁盘呢,那你只指定一个路径,那你说是不是其他的磁盘,那相当于是就怎么样啊,就空着你就不会往里边存数据了,对不对,那所以说实际上假如说我们的一个真实的服务器,要是有多个磁盘或者多个分区的情况下,那我们就需要把这个参数呢,得改一下,得让它指向什么东西呢?得指向多个路径才可以啊,这个是必须得注意的啊,要不然相当于你这个磁盘用不起来啊好,那接下来咱们就往下走啊。那要是多块磁盘的话,那我到底这个多路径应该怎么去配置呢?来我们看一下。
04:03
啊来,那下边呢,就给咱们展示了这个多个路径如何啊,去配置啊,都看它怎么配的啊,首先它这呢,有一个这样的参数叫做d FS data node,然后data的这诶那这个参数到底是什么意思呢。实际上啊,这个参数就是真正决定data node这个存储数据的那个路径的参数。啊,它才是决定data node存储数据路径的参数啊,那为什么我们之前配的是这个参数,而没有配这个参数呢?是为什么呀?因为大家看这啊,来那这道的节点保存数据路径由它决定,它就是它,它跟它是一样的,然后呢,其默认值为这个。哎,默认支是这个,那相当于什么呀,相当于是它是不是引用了这个路径啊,哎,它会在这个路径下边,诶来一个DFS,来一个data,这个路径下边存储的就是咱们呃这个HDF的这个文件啊,实际上是这样的啊,那也就说我要是真正的想去修改咱们那个HDFS呃,咱们那个呃,Data note存储数据的路径,那应该,诶是怎么去修改呀,是不是修改这个就可以了呀,对不对,咱们修改这个行,或者是你修改这也行,修改它是不是也行啊啊也行啊,都行啊,那假如说我现在呢,修改的是这个参数,你修改这个参数呢,那怎么去改啊,看一下。
05:25
啊,这儿相当于直接指明修这个data note分出一个路径,那怎么指定多个路径看一下啊,看能不能看懂,首先呢,我这是一个路径,这是不是有一个逗号啊,然后再跟下一个路径分隔,再来逗号跟下一个路径分割啊,然后咱们,哎现在重点看第一个路径啊,那第一个路径这前面有一个什么,有一个fail对不对,Fail,然后双斜线啊,这指的是什么?是不是指的是从咱们本地文件系统上面读取数据啊,指的是咱们本地文件系统相当是一个这个什么呢?相当于一个这个协议啊,那比如说我要往hfs上传数据,那你前面应该写的啥?所以HDFS冒号双前线呀,对不对,相当于一个协议啊啊,那这个应该能理解。
06:04
好,那双斜向后边,后边还有一个斜线对不对,这个斜线是什么?对,指的就是咱们的根路径了,后边这一串是不是就是路径了呀,对不?那这个相当于是存在根路径下边的DFS下边有一个DATE1对不对,那实际上这个路径会存到哪个分区里边啊。是不是跟路径啊,是不是可能到这会存到这个里边来啊,哎,应该是这样的啊啊,那接来咱们继续走啊,那下边第二一个路径是哪个看一下。哎,同样是h fair冒号双斜线,然后呢根路径下边的HD2,这个应该指的是谁。应该是他对吧?啊,然后里边呢,有一个DFS有一个带二,然后再往下,那后边呢,两个指的就分别是HD3和HD4,那这样一来我们的数据呢,就会来存折到咱们这多个分区当中。啊,你要如果说只配一个,那就其他分区都空着,那肯定是不行的,那肯定是不行的啊,肯定不行,大家把这个搞清楚就行了啊,然后这块呢,大家还有一个点需要注意啊。
07:01
你看我们前边在讲这海子的时候,只要修改某一个参数,是不是直接就分发,保证集群全部统一啊,对不对,但是对于这个参数来说。你说他这个需要保证集群统一吗?这不叫不一定啊,不一定,因为我可能有有的服务器上边啊,那我的分区是这几个,那有的我我可能不是这几个,对吧?我有可能比它多,也有可能比它少,对不对呢?如果说你全部按照统一的去配,那肯定会出错的,对不对?那比如说有一台服务器上边我没有这个HDR,那你是不是它就会报一个错呀,启动的时候说找不到这个路径对不对啊,所以说这个大家得学录意啊,啊所以说那这个每台服务器挂载磁盘可能不一样,所以说每个节点咱们这个目录呢,就单独配置一下就行了啊,单独配就行。啊,然后再有一个啊,咱们大家要注意啊,我们现在这个虚拟机上边啊,咱们有这么多分区吗?没有,所以这个参数咱们需要改吗?咱不需要改啊,就是咱们知道在这个服务器上怎么改就行了,但是咱这儿呢,是不需要需要改啊,啊然后在这儿呢,大家还需要去注意一下,就是这两个参数它们之间的关系。
08:05
啊,他们之间的关系,实际上这个咱们去哪啊,去海度官网是不是能看到啊,哎,咱们可以去看一下啊,比如说打开这个海度旁。找到它的官网啊,完了之后呢,我们点开这个document,点3.1.4,比如说那我们找谁找那个就应该找那个HF set呀,对不对,Hdf default.sml这里边存储都是啥,都是它的所有的参数以及默认值,对吧,那现在呢,我们就搜一下这个参数啊。这个参数就是专门用来决定datanode存储数据的路径的。来我们ctrl v so,你看这个参数它的默认值是不是就是它呀,对不对,那它是不是就是引用的这个东西了啊,那所以咱们之前是配的它啊,但其实啊,我们这边还有一个参数叫做内点DR。嗯。所这个搜不出来啊,那应该叫做name notde啊,应该是a me name not name.d你看这个是不是相当是name notde当中存储数据的路径啊,对不对,那它是不是也引用的是这个路径啊对,所以说咱们之前就统一配置一下这个路径,那实际上真正决定的应该是他们俩才行啊,啊这个这俩关系咱们搞清楚就行了啊行,那这个呃,第一个项目的知识点就是这个多目录存储,咱们就搞定了啊。
我来说两句