00:00
好,接下来我们看一下4.6用flu来消费卡卡数据上传到对应的as,诶,这是这块图,就说这张图当中。现在呀,我们的数据呢,已经进入到卡卡里了,现在我们要做的事情呢,是把数据上传到对应的A牌上。其实把数据上传到ES这块啊,有很多种方式,除了用这个之外,你还可以写一个Java代码。那这个价格代码呢,就是消费卡不卡。对吧,哎,写一个卡帕消费者同时再写一个HTFS的上传命令。不就把它拼接到一起了吗?啊,你还可以用我们后续学的什么Spark对吧?哎,消费卡法,数据上传到ADPS都可以,只不过呢,我们这里面选择的是哎,当前比较流行主流的flu。技术呢,比较成熟,直接拿过来就可以用。好,那是这块,那这张图呢,我给大家。截一下啊。
01:04
好放在这,那既然我们选择了用这个flu来消费卡普卡上传到ADS,那这个怎么配。对吧,现在我们要思考的就是这个它怎么配呀。它的数据源是卡夫卡,目标地址是as。那配置一个不是这么几件事吗。新建啊。From。里面有south,有China,有那好,那摆在我们面前的问题就是south怎么选?对吧,第一个问题怎么写。那很简单,我数据从卡夫卡出来,那我就选择卡夫卡S呗。对吧,哎,乘法乘好。那么这个对吧,中间这块是。怎么选?
02:00
那我们学过的有fair有。还有卡卡。陈导。这么几个。那我们来看一下什么特点,File是基于基于磁盘呢,哎,基于磁盘,那你基于磁盘的话,它的可靠性怎么样?可靠性高啊,可靠性高可靠性啊,传输效率呢,传输效率相对来说要低一些,它毕竟没有后面外传能基于内存的要快一些,对吧?好,那这呢是基于内存。G内存可靠性就要差一些。传输性能高是吧,哎,传输性能高。那这块能不能用卡法传统呢?哎,其实咱们这个项目当中啊,我们是可以选择用卡法传统,如果你用了卡法传统,那这个south就不能用了,直接从卡普卡数据灌到卡法柴头,然后进到这。
03:13
是可以的啊,没有任何问题,那为什么这块我没有用的。哎,原因是这样的哈,我们在讲的时候给大家讲的China都是memory。对吧,再讲第一集flu采集日志上传到卡普卡的时候,我们用的是卡channel。那还有哪一个三都没讲啊,是不是还有一个fair传都没讲过,哎,所以说这里面我们为了覆盖所有的技术。哎,这里面我选择的是F,让大家尽可能的多的学一些技术啊,这是这么考虑的。行,那既然我们选择用这个fire,那fire它是。咋工作的呢?思考一下。有人说那数据很简单呐,数据就存在内盘这个内存磁盘里面是吧,过来的数据。
04:02
是吧是吧,数据保存在什么。是这样的吗?哎,你发送过来一个数据。发送过来直接就持久化到磁盘,是这样吗?哎,不是啊,它会在内存里面放着索引。哎,有索引文件,这样的话我查询速度才会更快。能懂意思吧,哎,这里面我这样画可能有歧义,我再多画一点。这是磁盘当中的数据,这是内存当中的数据,内存索引,它记录着这里面每一个文件的开始位置,结束位置,开始位置结束位对吧?开什么时候开始,到哪结束。哎,加。好,那这都是基于磁盘,那大家能感受到,说你这个索引在内存里面,那如果万一索引挂了呢。那它可靠性就得不到保证了,对吧?哎,大家可能有这方面想法。这很正常,那我们想的就是把索引也放到磁盘里边。
05:05
再放一份水。这样它挂掉之后,我可以再从磁盘里面再恢复这一份索引,不就OK了吗?哦,索引我备份一份,那再来再来什么呢?那万一这个磁盘,我这里面跟内存的索引是要反复的同步。对这个磁盘性能消耗的比较大,万一这块磁盘坏了呢。哎,那行啊,那就再来一份,嗯,我们可以再配置一个磁盘,所以相当于是一个备份。哦,那这里面啊,这是磁盘数据在磁盘里面,索引在内存,内存里面,这个索引我还备份,同时我还可以再开启一个索引备份,增加它相应的可靠性,这个是需要配置的。这个为什么要讲这个呢?因为未来我们在配置file channel的时候,就要用到相关的这几个对应的参数。
06:01
哎,讲到的时候你就理解了啊,为什么要讲它好,那这是这块,那下面还有一个是think,那think我们选择什么信我们未来的数据要上传到对应的as,所以说我们只能这块选择HTFS性格。A,那一提到HDFS,大家应该想起点啥?HDFS最要命的问题就是小文件问题。对吧,哎,我先留一个悬念,后续呢,我们来解决这个问题啊行,那这个配置呢,我们就选好了。
我来说两句