00:00
好,那接下来呢,我们了解一下父母的一个to结构啊,Form头结构这个东西都是来自于这个官网上的啊,啊,那我们看一下第一个。所谓的拓扑结构呢,就是说将多个A类的进行一个串联,首先它可以简单的做到。串联,将两个任务串联起来,但是串联的时候,对于中间这个think,上一层的S跟下层的south,你就不能随便写了,你说这边是TDR,这边是HDFS,那不行。对吧,读本地文件,你把数据给我上传到了HDFS,那肯定不行,他必须要求用阿芙罗的。就这个A啊,呃,他这个东西呢,其实将数据发送到一个端口这边呢,从端口当中获取出去啊,但不是NEK啊,Ne不一样啊,这两个是串联的,必须要求你两个挨着的,这个东西呢,用阿芙罗的那一套,它里面就有阿芙罗的一个think,也有阿芙罗的source,阿波罗是个什么东西呢?是一个轻量级的RPC的一个通讯框架,但是跟大家说RPC这个通讯框架也是白说是吧,就是说Java那边会用到,因为他要做那个写通信嘛,就是跟那个服务器啊,那些通信他要自己去写啊,知道一下它是一个通信框架,就是可以使用某一个端口来实现发送数据,接收数据,就类似于那个NC那种功能差不多。
01:38
对吧,啊,它是里边的一个组件,阿波罗的这个啊,这两个东西,阿波罗的一个RPC的通用框架呢,是它构成复杂拓扑结构的一个。前提条件,那既然你两个人能串联,我在这个用阿波罗辛,我下游再接一个阿波罗S能不行,可以对吧,可以切的很长。啊,我可以接的很长,而且的问题在于我们也说了啊,一个source是不是可以把数据传给多个China,这边可以多个single,这边一个阿波罗single,这边一个阿波罗single,那我们能不能把架构变成这个样子。
02:13
就是这是一个A的,这是一个A的,这也是一个A的也可以对吧,好,所以下面呢,就会有这种复杂的。来看。接收一个sources,这个呢,我们一般的指的是复制啊,备份,备份的一个作用啊,那我接收的一个数据对吧,然后我传给三个China,三个ID份GMS,这也是一个消系统啊,就是你现在不用管,因为我们不会用到啊,反正就是说下游的一个地址对吧?啊,下游地址你就把它当做logo得了,OK吧,它既可以传到HD1份,也可以在控制台打印一份,对吧,还能通过拓扑结构给另外的A着呢,那这个S至于写到哪,是不是由这个S决定的呀,对吧,而且我们说了这是复制三份完全一样的互为备份的关系,嗯,对吧?啊,互为备份的关系就是说,假如说呢,我们既要做实时开发,又要做离线开发,那我们可能把这个东西要传给HDFS,另外这个东西我传给Spark,实时对吧,啊,类似于这样的操作啊,就。
03:26
副本机制啊,但实际上过程当中也不会这样做,但是他可以这样做,对吧?啊,他可以这样做做副本,因为如果说真的做副本的话,不会在这做,这做副本太麻烦了啊,我们还有更好的工具做副本啊,后续我们就会学到啊,这是我们所说的一个复制的一个作用,对吧?类似于这种架构图我们能做出来,那还有负载均衡,看这个。负载均衡和故障转移是不是用这个组来做的?
04:01
对吧,用C个组来做的这个架构图啊,既可以做负带均衡,又可以做负展转移,就看你配的策略是什么了,对吧,那个我们整个的是都往HDF去写,对吧,都往H这边写,那有可能呢,这个数据量呢,这个数据量过来的数据量呢比较大。比较大会怎么样呢?如果说直接一个人去写的时候,交给下游去写,对吧,因为你要写HDFS,其实往HD写是不是写磁盘呢?看上去好像是往HDF写,对于HDF说是不是还是往磁盘里面写,因为HDF数据是不是还是依赖于本地磁盘做的,对吧?往磁盘写可能这个效率怎么样会比较低,那如果说你一个人写的话,这个东西可能来不及,那我就分是吧。多个人来写对吧,我就用负载均衡的方式啊,负载均衡,那这个时候有的人说,那我写的时候是不是还照样来不及呢。
05:00
对,有可能啊,因为数据量三个人同时写的时候,数据量还是没有什么区别吗?但是你注意是不是China的个数变多了。对吧,那我中间缓冲的能力是不是变强了,就算你来不及写的时候,本来你一台机器缓冲,那我们现在交给多台机器就缓冲了。对吧,那我能力是不是变更强了,就相当于这是负载平方,那这个东西我们也能配故障转移,对吧?我把这个东西呢,优先级配的最高,正常的时候呢,你一个人写你挂掉了,如果说正常你挂掉了是不是就直接没了,我现在由你替代我工作吧,对吧?在这块C个组我们是不是可以配故障转移对吧?也就是说负载均衡故障转移架构看起来是一样的,只是说在这个C个组配置的时候,什么东西不一样,策略不一样,到底你配的是balance还是。对吧,这个是可以自己去配置的。啊,它架构图是一样的啊,对吧,因为负载均房跟故障转移都是C组里边的那种嘛,对吧,都是一个China对接多个S这种结构,对吧?啊只不过说在think配置的时候呢,我们可以配置不同的策略啊,可以配置不同的策略是这样东西,那还有一个。
06:17
聚合,他还能这样玩?也就是说呢,干什么事啊,这边还是阿波罗的一个S,我们可以使用三个C往里发。这个聚合这种东西啊,是在生产环境当中非常典型的应用,因为现在大家知道我们刚才之前就提到过呢,更多的是不是采集本地系统当中的日志数据,而现在后台啊,没有单台机器。是。就现在你的京东平台也好,阿里的淘宝平台,或者其他的一个平台也好,它整个的后台服务器,它都是什么集群,都是集群,那么去访问的时候,哪台机型处理的你的请求是不是就落在哪台机器上面那个日志,那也就是说我们真正要找到SDF数据是不是来自于前面很多台服务器啊。
07:19
对,这没问题吧,能想明白OK,那我们最后分析的时候说我今天到了你,我要分析昨天的数据,我是不是应该分析昨天全部的数据啊,我是不是应该把这些所有的数据都给他收集到HDFS,对吧?所以说呢,这个地方就相当于在后台服务器上装的那个什么A人的,我要把三台服务器上对应的日志数据都给它收集到H点,对吧,我就可以收集到一个。A站的里边写到X法对吧,我们只要可以做这个事情。啊,聚合这个最后一个这个内容啊呃,公司当中一定会用到的,而前面这个东西有可能我我就不用这个负载均衡,我就不用这个故障原因那你明白吧,但是它一定避免不了用这种聚合。
08:10
因为他现在的后台服务器一定是集群的呀,对吧,他现在单台服务器他能干啥事啊。对吧,他干不了啥事,你想想看,那么大的一个平台,怎么可能就一台服务器呢?整个的服务器有可能都是上千台的。对吧,甚至有的公司美团之前好像是去年的时候吧,有大数据集群是6000台对吧,而且去年的时候好像说要扩到1万台,就大数据去,那你想想看,还有其他的就光大数据去进啊,然后还有其他的后台呢,等等这些内容,对吧?啊,现在单台服务器其实干不了什么事了啊,这也是我们大数据才因此而生的是不是。要不然哪有大数据啊,如果现在还处在单台服务器能处理所有事情的时候,不需要大数据,哪有大数据啊,对吧?啊,那数据量买克直接个小数据对买S处理就够了,就是因为这样的,所以你发现大数据当中,只要你以后遇到啊,它是一个处理框架,它一定是分布式的。
09:16
要不然它就不能作为大数据的处理框架,数据量太大了,单台数务器干不了这活,对吧?啊所以说这种架构啊,是一定会用的啊,因为要聚合,对,所以说这里边东西啊,每一个我们下面都会对应的,有案例的都会有案例,对吧,这个是复复制多多复用,负载均衡,负债转移,还有聚合啊都会有简单,那有同学可能要看,哎,简单串联怎么没有。那你想想看,你这些东西能搞定了,简单串联还是问题吗?它其实简所谓的简单串联是不是刚才我们所说的下面一种复杂结构的一个基石啊,一个基础对不对啊,啊如果没有简单,如果简单串联它做不了,你下面是不你就不用谈了。对吧,因为下面是不是都是简单串联的组合体啊。
10:05
对吧,啊,组合起来的啊,所以呢,简单串点一下,我们就不用单独去做测试了,我们就上来就用这个什么多录复用啊,复制啊等等这些案例就好了,对吧?啊是这样的一个内容啊,行,这是我们所聊的它这个拓扑结构的一个介绍啊。
我来说两句