00:00
好,那接下来呢,我们说一下这个,呃。具体的在这个组成当中,每一个组件的含义啊,或者说它的功能,比如说这个HTS里面包括什么,延安里面包括什么,里面包括。来分别再详细的阐述一下。呃,首先呢,是这个ES。他负责。对吧,哎,陈处。存储里面呢,它有这么几个组件啊,一个是name note,一个是note一个。就是secretary。三个名称也是HDFS,由这三者组成。那这三者都是干什么的?我们来看一看。内部的是存储文件的原数据。什么是原数据?接触过吧?买狗里面什么是选数据?是不是各种存在这个表啊,表的结构啊等等这些信息啊,啊原数据,那我们在这里面呢,这个内部中的主要存什么呢?我。
01:02
文件的名称。文件的目录,文件的属性。生成的时间副本以及。文件权限等等一系列事情。都是那个。那另一个data呢,它是存储文件的这个框信息。以及这个块的升序的校验盒。呢,它是用来监控辅助后台工作的啊,其实它就是来帮内部工作的。那光看这个概念你肯定不懂,那下面来一张图,你看一下啊。看看那个电视剧的内容熟不熟悉?这谁呀?陈进南是吧,啊陈静楠这个是。往下啊,往家放。这个他师傅要教他武功对吧?啊,看来我们都是零零后。那这个师傅要教代武功啊?小宝说,这么一大会儿,我要练个个把月是吧?
02:00
他师傅回了一句,这一门只不过是绝世武功的。那这个目录就相当于。在键盘上的内note。集群上所有的信息的一个目录的检索。那什么是dead动呢?他是不是告诉他了,那一堆才是绝世武功的秘籍哪一堆?这个就是秘籍。那刚才这个内弄相当于是目录啊,对弄呢,相当于实实在在存储的数据。那么这个三个能人内部动作是干什么的呢?哎,你先就记住一句话,他是辅助内部动作工作的,后面呃,还有两三天吧,啊,三天之后我们会讲这个。想继续去讲。今天呢,我们在开发过程中,只需要他把。这两个就够。一个是目录,一个是存储实实在在的数据。就想一下这个电视剧的场景是吧,啊,就OK了。
03:03
想想我是零零后。OK。那再往下,下面呢是雅恩的概述。你是亚楠的主持?延安是负责什么的呢?这样的调度对吧,哎,这样调度OK再来。首先呢,这上面啊,出来这么几个角色啊。呃,这呢,相当于是一个服务器节点。节点知道什么意思吗?等于福气。再通俗一点,等于你的电。OK吧,啊这意思啊啊,节点后面的话,我会经常说节点啊,因为在企业开发中呢,说的都是这个节点啊,我会说啊电脑和电脑电脑多少。啊,他这个这是一台。服务器节点啊,这也是一台这。这是相当于这个集群上有四个节点。这个节点呢,有一个节点当中承担的角色呢,是resource manager。
04:05
啊,其他节点呢,承担的叫no。那他是怎么工作的呢?来看一下。首先登场的是matter。他干这么多活,第一个呢,是处理客户端的。也就是说客户端别人想访问你这个集群啊。后面我会单独写代码啊,访问这个集群。那由谁来处理呢啊?资源这一块就是resource matter。他是整个服务器当中集群资源的老大。他管理的所有的这个CPU内存磁盘啊。处理工单请求一件事,第二个呢是监控动作manager。也是监控他的小弟啊。这个的小弟。
05:00
来,再来。这是启动或监控application master。这个啊,它是这个集群上运行的。或者是任务,你可以说是疫情的任务或者照都是一个事儿。后面都会讲。再说哈。那就是干的活儿。分析了哪些指标,一个一个的指标,你可能有三千三万个指标,那每一个指标都会形成一个任务或者一个照。那这一个照吧,由谁来管呢?就有这个APP。Master,他来。单独某一个job的老大。负责资源的分配和调度啊,分给谁分给谁多少。这是老大啊。那下面呢,还有一个是note manager,也是单个节点上资源的老大。他负责什么事呢?管理单个节点上志愿。
06:00
在这一台服务器节点上,所有的资源他说了算。啊,但是他要跟他去申请去汇报啊。OK。再往下呢,是处理来自于上牌的命令,这个老大呢,给他分一些活。他要去负责去干。再往下处理来自于application master的命令。也就是说呢,他要处理某一个job,某一个任务,对他进行资源申请啊。等等一系列的命令的一个处理。干这个事儿。你可以理解为这是你们公司的。部门。这相当于是一个。那这个呢,相当于是你们公司的一个一个的项目。项目经理和部门经理,你能去开吗?部门经理不等于项目经理。
07:01
啊,一个部门经理是管理,比如说研发部的经理,他管理研发部的所有的人。但是。呃,项目经理,他只管这个项目相关的人。稍等一下啊,啊,应该。没有关系啊,不懂也没关系啊,啊简单先记住有一个是你上次来的时候是整个集群资源的老大。另一个呢,是这个note manager。他只负责某。一个节点。的老大。还有两个。阿里master。就单个照吧,这状态的协调啊,以及。那个老大啊。负责数据的切分,这是后面的事啊,你先不管为应用程序申请资源并分配给内部的任务。也是申请志愿的。在任务监控,任务的监控和容错。你可以简单一点记,他就负责在集群上某一个任务的资源的申请调度。
08:03
开启进程协调等等一些事情。相当于项目经理。再往下还有一个组件,也是最后一个组件,叫container。是雅安中支源的抽象,它封装了某个节点上多维度资源的,比如内存、CPU、磁盘、网络。等等,什么意思呢?你这个container它主要是为谁服务呢?Application master为他们去服务,每一个去服务,因为你这个job要想运行是不是需要内存。需要CPU,需要磁盘,需要。啊,那这些资源他都给你虚拟化到。这是一个云计算虚拟化的一个基础。你要说的是比较大,那稍微说简单一点,你们是不是都装了这个VM。
09:00
那不是干嘛的?他是帮你出虚拟出好多个三头。没理解这事吗?你是不是缓和三头二是都装在这上面了。是他帮你虚拟挖出一台台的服务器。都是虚拟化的一些技术。好,这里面呢,涉及到了四个组件,一个是resource measure,一个是一个是application master,还有一个是组件。四个组件当中,今天我们只需要掌握一个,两个。这两个是日后我们再讲。慢慢60的时候才有讲,至少也是五六天以后啊。一周多的时间以后了,前期你不需要去关注他。的,这里面只需要记两个。整个集群资源的老大。对少慢。在各集群当中某一个节点,单节点圈的老大闹的完。
10:04
这张图是从官网上啊,这张大图上是从官网上啊。1:1画出来的啊。一模一样,那网上。好,这是雅啊的架构。那下面呢,我们再来啊,说一说这个六。呢,一共分两个阶段。分别是麦克的和北京。那么脉搏阶段是负责什么事情呢?并行处理输入的数据。阶段是对麦克的结果进行一个汇总。什么含意?比如说这有一堆数据,100G的资源。你要对它进行外部处理。哎,那就是说我这里面有。多台服务器。怎么去干活,一人处理这里其中的一点点。那这个分的过程。
11:04
那么你这个分完之后,你是不是要对这个结果进行统一的一个汇总啊。那这个阶段就是。Mike负责分。啊,是负责和。那分的时候是不是多人干活,那肯定很快,干完之后每人把这个信息就产生了一点点,然后告。结果啊,只把结果告诉去就行。那下面呢,我们来看一下这个案例呢。帮帮程老师是吧?三大爱好的基本上。算了,爱好。洗脚。买药健身是吧。我记得啊。呃,找出书老师,呃,这个015年五月份的教学视频。那宋老师啊,15年五月份,呃,高清无码视频。
12:03
高清啊100T。在分析,那这时候呢,启动了这个多台服务器,这里面是1234。后面还有很多。那这个过程每个人分析一下,哎,你查前面,比如说这128兆,你再查这128兆,再查128兆,这边120兆。每人查看一点点啊,检查一下自己电脑有没有。那这时候很快。并不是全部的便利。那他告他来说。没有。我那个呢,也没有。哎,终于到103的时候说,哎,我这有啊。那这个呢,我没有。最终是把有的搞回来。500张啊。就这么着的,是N多个人帮他去做这件事情,那效率肯定会。
13:02
左侧这一块是分的过程,慢迭段,那聚合的过程就是引流。那么我们就把这个态度的组成啊,整个就讲完了,那我们稍微回顾一下啊,好,提问。哎,今天FS负责什么事?数据的存储是吧?存储里面包含几个组件?三个四个,三个四个。三个啊,其中今天需要记住哪两个。内部弄的啊,还有什么。负责什么?目录是吧,哎,数据的这个目录进行目录就OK,数据节点呢。实实在在存储的这个数据的地方是吧?OK,那后面还有一个图文,我就不问了。它只是帮助内蒙干活的,OK,那下面就来了眼,有几个组件。
14:00
四个,今天需要记住两个,哪两个。负责什么的。整个集群自然的老大。Not manager或者干什么呢?单个节点上的老大,OK,妥妥的搞定。那下面最后一个卖分几个阶段?两个阶段,Map和reduce。那外管负责干什么?负责分对吧,人家是负责。几种啊,集合OK。那不总呢。现在你已经成为。46万程序员当中的。还记得这46万吗?
我来说两句