00:00
好,接下来我们看一下HDFS的一个概述,那么HTS在hi度当中处于什么位置啊?它主要来解决海量数据的一个存储问题,对吧?那么来看一下它的概念,叫hi doop distribute file系统,翻译过来呢,就是hi doop分布式文件系统。它是一个分布式文件系统,那怎么理解它呢?那给大家画一张图啊。那首先这里面有一个需求,哎,宋冲老师有一个什么需求呢?有这样一个需求,说有200T的导国资料。啊,据说呢是去日本这个,呃,旅游的时候啊,这些资料啊,不要多想,我们来看一下。OK,那这么200T的岛国资料。那他得存下来呀,那宋老师自己的电脑多大呢?只有一个T。那你说这个问题大了,他一个T他存不下呀,对吧,那假如说宋老师有一台电脑吧。
01:02
态度和102,它只能存下一个T的数据。那怎么办?那宋老师他不能这个舍不得这200T的这个资料啊是吧,好不容易这个攒一下这么多年的心血。那怎么办呢?那他就想招了,说孙老师的这个学生多呀,他可以让其他学生帮他来存储这个导购资料。那宋老师发个英雄帖,说这个大家愿不愿意帮宋老师做这个事情呢?嗯,你愿意吗?好,我们来看一下。再来。好,再来一个。那这里面如果仅是三台服务器的话,是不是也纯部相爱?那得怎么办,我给宋老师来一个400台服务器,因为这个宋老师学生多呀,对吧?嗯,好,400台服务器,那总能把它存下了吧,那就会存在这样一个情况。
02:02
把这岛国资料分散的。还有哈。分散的存储在各个服务器上。那思考一下,那我这个存在哪台服务器上,比如说这200T,它到底这200T都存在什么位置,对吧,大家要思考一下数据都存储那什么位置,这是我们思考的问题吧。对吧,那这里面就会诞生一个主件叫name no。HTFS第一个组件记录每一个文件块存储的位置。好。那下面。那这个每一台服务器,它又是一个。什么组件呢?哎,它叫date note,比如说具体来存储数据的位置。
03:02
来看,它是用来具体存储数据,OK,也就说干活的对吧。那些?OK。那这里面每一台服务器,它都是一个datanode。再来。OK啊,一个name no呢,是管数据存在什么位置,那data no呢,是管数据具体存在哪,那大家思考一个问题哈,那突然间有一天如果说这个name not它挂了怎么办呢?对吧?有这种挂的可能性吗?有这种挂的可能性,那他挂了,那是不是整个集群就瘫了。我不知道我这数据存在哪了。那这时候很危险的,那这种事情不能让它发生,也就是说万一这个老大挂了。
04:00
那这里面就有一个图。他是一个什么角色呢?他是一个类似于秘书的一个角色。哎,秘书。那秘书一个什么特点呢?对吧,哎,有事秘书干啊,没事呢,不知道对吧,哎,没事不知道行,那这样呢,就构成了一个整个HDFS的一个数据存储的组件,比如说这里面有name node,有电node,还有呢to。那他们分别承担什么角色?Name no负责整个数据的存储情况的一个记录,那么data no呢,是具体的来存储数据。Ton是辅助内弄的工作的。是他的一个秘书,那后面呢,我们会详细的讲解name not和tonn的一个详细工作流程,也是老板和秘书的一个爱恨情仇,在后面给大家详细讲解。行,那这是我画张图,那我先来看一下这个笔记哈。
05:00
这里面有一个更详细的一个说明说啊这里面有内no,简称NN后面呢我们一般叫它NN啊,它呢是存储文件的原数据,如文件的名,文件的目录结构,文件的属性等等一些详细信息,那下面呢还有一个date note。Data呢,就是具体的来存储文件块数据,那这里面还包括文件块数据的一个校验盒,于是保证这个数据啊它是正确的,那这块呢,后面我们也会给大家讲啊,别着急。那再往下来。下面就是ton。你可以认为是一个秘书,它呢是每隔一段对内弄的原数据进行一个备份,万一内弄挂了,那我这里面还有一部分原始数据帮你去存储的。好,那这里不知道大家看没看过这个电影哈。像这谁啊,陈进南这个呢,韦小宝,这个陈进南啊,教这个韦小宝武功说。这个韦小宝说这么一大本,我们得看个个把个月啊,这个陈建南说了,说这一本啊,只不过是绝世武功的目录。
06:07
说那一堆才是绝世武功的秘籍。那很形象啊,你看刚才他拿到的这个秘籍只是一个name node,那下面这一堆才是对,比如说具体来存储数据。OK。
我来说两句