00:00
好,然后我们来看一下这个第七章这个扩展。扩展就是卡普塔与from的一个比较。那学到现在为止,就是跟卡卡感觉他们那个作用是不是一样的呀,对吧,都是传输数据的,然后他们那个组件也一样,只不过组件的名字不一样嘛,哎,组建一个叫什么south China think一个叫什么。Producer,然后卡卡集群对吧,还有一个是那个consumer,消费者都是一样的吧,一个是入口出口,然后中间的缓存缓存,然后在公司当中如何选择这这几个框架呢?啊,他们的作用,而且他们所处的位置也是同一层吧,就是数据的传输层啊同一层OK,那我们先要了解一下它们之间有什么区别。有什么区别,以及我们在公司当中怎么用的啊,在公司当中常用的一个手法,OK,然后看一下from,它是那个cloud公司开发的啊CDH对吧,CDH公司呢,本身就是做那种呃哈多宝生态圈之间的一个兼容性的一个兼容性考虑的好。
01:04
它适合看他适合和不适合,什么事不知道什么事,OK,第一个。适合多个生产者,多个生产者,因为它一个生产者对应于我们一个A店的任务就可以了吧,对吧,就像我们之前所说的,在公司当中的那个后台服务器啊,不可能只有一台是多台的,那多台你要分别采集什么。每台服务器上的日志对吧,到你的一个大数据集群,但是这种多个生产者,因为它对于多个生产者就非常的方便,起一个A类的就够了啊来来一个生产者起一个A的就够了,第二适合下游数据消费者不多的情况。这个下游消费者不多是什么意思啊?之前我们做过一个这个案例,哎,就是从。什么控制台读数据,然后传给。
02:00
HDFS1份,还有人吗?本地文件系统一份吧,叫。啊,Local file system啊,本地文件系统,那当时我们做的时候兼控了have文件对吧,兼控了汉文的一个日志have.log。然后这里边两个think,这没问题,那你肯定要用两个C吧,一个HDF,一个是那个就fair啊,那个think OK啊,当时还记得这个圆肯定只有一个吧。对吧,Source只有一个嘛,因为我们只监控了那个什么have a log have2log那中间的掺着几个。两个对,必须是两个,而且他们俩之间什么关系?当时还配了一个参数。是让它成为副本嘛,那他们俩成为副本,OK,嗯,From呢,如果你要对接下游消费者很多的一个情况呢,你必须要用多个China,多个来做多个China,就是说你每加一个消费者,你都必须加一个China,必须加一个China,而且这多个China之间的数据是。
03:10
一样的,一样的。现在能不能体会到他为什么不适合下游消费者这种多的情况呀?配置文件很庞大,这个是其次的,重要的是内存这块吧,啊,内存这块占到更多啊,内存这个很多应该是内存啊,就占用的内存一个比率就会很很很高就很高啊,然后第二第三个适合这个数据安全性要求不高的一个操作啊,因为之前提过在公司当中最常用的就是哪个。那个对吧。之前提过了,就是,而且我们在讲课过程当中只用过memory channel吧,因为公司当中90%的一个情况九应该90以上吧,都会用的那个memory channel,很少用的那个fair,因为它速度太慢了,速度太慢了,OK,那既然放在内存,它这个安全性就会降低吧,哎,就是说它速率能提高上去,哎,安全性就不高,安全性就不高,是这样的,OK,如果你要用pro来传输的话。
04:12
你你又想用又想用安全性比较高,那你就只能用那个什么。File看到的对吧,哎,文件的一个缓存啊,OK,然后还有一个适合于哈多生态圈对接的一个操作。啊,之前就是刚开始提到这个cloudy公司的时候就提过吧,因为cloudy公司它本身就是做这个哈多生态圈之间的一个兼容性的,所以他是这个公司开发的,还有他跟那个什么have啊,还有那个HDFS啊,还有h base啊等等,它这个对接应该相对来说一个安全性校验啊等等做的是比较好的,比其他的一个框架肯定要好的,因为他考虑到很多很多的一个情况啊,这是整个如何来选择这个,然后看一下卡夫卡,卡夫卡是零公司开发的,对吧,000,然后第一个。适合数据下游消费者众多的一个情况。
05:03
因为你要是下游消费者多,你直接起一个消费者任务就行了吧。你卡夫卡集群里面要做任何改变吗?不需要吧,哎不用动,你之前副本是三份,哪怕你消费者是十个20个,他副本都不用变嘛,哎,都不用变,完全不用动,就是说你中间的一个缓存的一个数据啊,跟我后面消费者的个数没有关系,没有关系,你大不了多加一个消费者,你自己来读数据啊,自己来读数据而已啊跟我这个考法集群呢,我不要做其他的一个任何的改变,要他改变OK,那第第二个适合数据安全性比较高的一个时候,因为它有副本机制,而且它的数据是放在哪的。放在磁盘对吧?哎,它是将数据放在磁盘的同时还有备份的一个机制啊,所以说它对于安全性要求比较高的时候,大家适合做这样的一个操作,做这样操作,OK,这是大体上如果这两个框架选一个的话。就看这些东西吧,看这东西OK,在公司当中一个实际的应用场景是这样的,就是说它的数据啊。
06:07
就是放在那个后台服务器上的,对吧,写在那个日志文件里面了,写在日志文件里面了,那这个时候。From,它本身就是什么采集这种日志文件比较擅长的。所以说前面。这是那个什么?呃,后台就是他们开的那一套集群后台服务器啊,然后这边呢,是你那个大数据集群,然后在公司当中,应用场景当中是这样用的啊,采用后后来我们现在学的都是FNG对吧?FNG比较方便,就A的呢,它之间的一个托弧搭建非常方便啊,不像OG的时候要自己写这些东西,OK,嗯,是这样的,那你后台服务器有多少台,我起多少个A着的嘛,就A1A2A3A4。啊,第一它适合多个生产者,第2FROM呢,适合采集日志的个功能啊,采日志的一个功能,那汇总过来之后。
07:03
到我们卡不卡集群,不是到我们那个大数据集群。应该是要做一个汇总吧,哎,多元的一个汇总还是一个的A呢A呢OK。好,接下来到这块来了,也就是说此时数据由你大数集,大数据集群当中的一个A阵的收集过来的时候,就已经到了大数据集群吗?OK,这时候在公司当中呢,一般会有两条线,一个离线,一个实时,一个事实,或者还有很多的其他的一个业务线,这至少有这两条线每个公司都会有的啊,离线的一个操作,一个实时的一个操作啊,离线的操作这边呢,一般是将数据保存下来。就保存下来,因为他是要什么。每天晚上一个凌晨,对前天那个数据分析,因为他离线的嘛,他没必要说你一条数据过来了,我做分析,那就不是离线了,那个实时了,那第二条线就是实时,实时,那这个时候是不是产产生了多个消费者,他可能还有其他的一个业务线,对吧,多个消费者,那此时呢,我们数据呢,就不适合从。
08:04
分多个消费者出去,那这个时候呢,他直接把这个数据啊给到卡不卡,有卡不卡干什么。来对接多个消费者,来对接多个消费者是这样的一个操作,OK,然后呢,后面如果说你真的这个离线的业务线呢,你是要走到哪。HDFS的,你后面跟一个from或者不跟也可以啊,跟一个from或者不跟也可以,因为之前提过from这个东西呢,是与哈生态圈对接。比较适合的一个框架吧,比较适合的一个框架,那离线这块,刚才提到离线这块呢,你一条数据过来的时候,那肯定是要保存下来了,没必要说直接就拉过去就运算啊,拉过去运算而卡不卡一天。卡普卡里面要做实时的一个计算的话啊,它后面我们要学一个sparkw,它专门有一个封装好了,封装好了一个不卡的一工具类啊,就是帮你做什么卡夫卡跟Spark streaming的一个对接的,卡夫卡跟Spark streaming的一个对接的啊,这一块就是一个实时的一个任务啊,这边离线你要这么走这么走,OK,那公司常用的呢这一块。
09:16
就是说从后台一直到卡瓦那边,卡瓦那边啊,绝大多数公司目前是这种架构,这种架构就是说这边呢,都是A类的,然后由由一个A类的来汇总,然后对接到卡夫卡,至于卡夫卡后面接什么。如果是你如果是实时的这条线,嗯,也是绝大多数公司在用的,你们可能听过那个什么storm flink对吧?哎等等它都可以对接啊,都可以对接,因为它是实时传过来的一个数据转换数据,至于离线这边你是有卡不卡直接存到SDFS,通过API留存也可以,你不是学过那个哈多当中的一个PA的个命令吗?对吧,反派命令,同时API当中是不是也有APA方法呀?对吧,你既然在卡普卡当中能将数据消费到能在控制台打印,那接下来你拿着这个数据说写到HDFS,写到什么,后面我们写的h base,因为h base也是一个存储框架都可以吧,通过API的一个调用都可以做这个那个操作啊,做这样的一个操作,OK,也就是说后面这些东西呢,可能是每个公司当中差异比较大的地方,但前面这一系列啊,基本上公司都差不多啊,从后台服务器到。
10:23
汇总的A电的,然后再到卡不卡啊这一块啊,基本上是OK,这是我们所讲的服装跟一个对比对比,然后以及公司当中所用的一个常用的一个模型,常用的模型就是from对接卡不卡这个啊接下来呢,我们就看一看这个from对接卡卡怎么做对吧?因为我们之前没讲那个卡不卡S,没讲卡卡SOK来操作一下。嗯,我先看一下题型。那这时候先把那个VK开一下吧,VK开了之后开卡不卡。到了。
11:05
Model,然后这个卡不卡。靠说到了,然后我靠靠对吧。OK,把这个拿来。走一下。嗯,OK,然后我们再起一个窗口来开一个from,然后先配置什么from的一个com CD的d model,然后这个from。啊,直接到job本底下,我们touch一个。嗯,卡夫卡吧,卡夫卡点卡,因为我们这个数据呢,最终要传给卡夫卡的,OK,然后我们通过这个给他打开一下。02JOB底下有一个卡卡。
12:07
安利的好。嗯,然后是这样,我们是做一个什么事呢,在这。同样的也是监控一个日志,因为之前提过后,那个公司当中,生产环境当中也是监控一个日志吧,啊监控一个日志啊,监控日志发送过来,然后由卡卡接收,卡卡接收OK。把这个拿一下哦。分为这几块,第一个第一没什么可说的,对吧,然后监控日志这块也用的比较多了,用的比较多了,OK。还有。China China,还是这一套吧。最后的一个绑定绑定,然后接下来我们看一下这个啊,这个在哪呢?同样的它也有一个什么配置文件吧,进到的一个官网。然后documentation用盖啊,用户指南啊,这边搜一下吧,叫卡夫卡。
13:08
S。在这代表里,在这,哎,他也有个考官exin,那他要配什么东西呢,就这样。不是。你要发送到哪个卡卡集群,你要告诉他吧,啊,这个大家要有OK第二个。这个东西虽然不是黑体的,它虽然有默认值对吧,但是你看它默认发到哪了,叫default from杠,那你肯定要改一下吧,因为你不一定有这个什么。逃避啊,不一定有那个逃避,其他的就还好了,其他就还好了,你这两个东西就有追一下。这是过时的,如果你用的1.5及1.5之前。所以你们后面可能会用啊,后面用的是1.5,就是做项目的时候,不是说用的老框架嘛,哎老框架呢,是它的相应的一个参数是这个,就刚才我们看到的不是不to so点就是这个属性不stop.so嘛,对吧,哎集群它老版本呢是这。
14:11
Brook,然后我们看到了刚才卡不卡点topic,它老的是topic,哎这块呢,就是它这个老的一个什么,哎配置文件,配置文件这跟你那个老的一个API是一样的,你就可以看一下老的一个API,那我们现在用的是这款。啊,用的是这个。好呃,来那这块东西就核心的配这几个,然后还有什么,还有这个。producer.sk那想想啊,我们这个地方虽然叫卡不卡卡。但是对于考卡集群来说,它是什么?它是生产者吧,哎,它是生产者,这你要注意的,所以说呢,你看它它这里面配的属性是不是跟你生产者配的一样啊。对吧,哎,给你配生产者配的一样,来看一下我们配的一个东西啊第一个。
15:02
它的一个类型啊,类型就是这块给的啊。在这吧。需要设置,必须要设置成这个东西啊,这这个东西这个写法是不是跟我们自定义的一样啊,对吧?啊跟我们自定义的一个方法一样,不OK好,然后看一下那个stop so,然后掏一个,然后后面什么AK这等等那个一答基阵,然后说这个还记得这个是干什么的。这个毫秒数。提交延时,对提交延时,提交延时。然后还有一个是那个16K对吧,哎,两个东西共同作用的,如果说他在这个时间内达到16K,它也会提交吧,就一个大小控制,一个时间控制啊,一个时间控制是这样的。好,然后我们把这个保存一下,然后我们看一下这个对斯福米的log是吧,我看一下有没有这个数据。再开一个窗口吧。
16:00
Cdd model。我们叫对吧。啊,没有点到,等会我们touch一个,然后这个地方改一下,改成data没有SK。好,然后我们踏一个。它是一个什么呢?那个from.log是吧。好。那我们把这个任务起一下。任务起一下,任务起来之后呢,我们就开启一个那个卡卡一个消费者,然后再往这个里边塞数据吧,哎,再往这里面塞数据,OK,那启动命令还记得吗?就是关于的。并。NG对吧,A的杠N就是它这个名字吧,A1-C杠杠F叫底下有一个卡,卡点吧,卡快点。
17:00
走一下。好,那这样就起来了,起来之后呢,我们就开一个那个消费者。再克隆一个c model卡不卡,卡把那一个控制消费者并卡不卡。Topic写的是first啊。啊,已经定义了了,对吧,然后卡对吧,刚。102冒号8181。刚刚他是不是你要消费哪个他个。First。好,这样就开起来,接着接下来呢,我们在这。写一些数据吧,是在这个地方对吧。艾克一下什么哈,追加到那个log。
18:01
还挺快的是吧,再追加一个什么艾特硅谷可以吧。他的微博走那这边一小会车,这边一晚就有了,它整一个传输过程,基于内存的读写也比较快啊,比较快,整个的一个实时的框架啊,在公司当中应用的就是这样的,OK,然后我们这个地方是用的是一个。控制台的一个消费者对吧,那我这个地方我用代码就是用API来消费,可不可以啊,也是可以的吧,那API能消费到之后,你能不能把这套框架写到什么HDFS啊,用那个pad命令去追加吧,哎,后面我们要写那个什么h base的时候,H base呢,它自己也有一套自己的一个APIAPI啊,一个读写的API,也可以把卡不卡读过来数据啊,实时的写到h base里边也是可以的啊,也是可以的,这是公司当中常用的一个架构,当然我们当前只有一个什么。源头对吧,因为我们只弄了一个那个,如果说三台机器,也就是说102103104,同时监控一个日志文件,然后汇总过来传到卡不卡能做吧,哎,自己应该能做了,因为这个东西分散的一个架构我们都讲过,然后只不过说你把它整合一下就够了,整合一下就够了,OK。
我来说两句