00:00
好,上节课啊,我们已经分析好了,说我们的S啊,选择卡法S。TRY呢,选择fire。呢选择是这样。那我们这里面有两个日志,一个是启动日志,一个是事件日志,分别发往卡普卡的,呃,分别是在卡不卡的不同的topic里面。我们未来写呢,也是要写入到HDFS不同的路径下。那你看一下,这是我们正常的这个配置文件要写的内容。你就说你这上下这两套是完全一样的,只是改了一下这个套轨名称是不是就OK了,哎,是这样。那我们要不要把它分开呢?哎,这是两种方式啊,你可以把它分开,如果单独配置启动日志,再配置事件日志的没问题,是可以配的启动两个文件啊,独立机器,当然你也可以把它放在一起,统一的一个管理,要么都启动,要么都停止。哎,这个看你在企业里面的一个需求了啊好,那下面我们来配一下吧。
01:04
那这个配置文件怎么配呀?好同学一配啊就有点晕是吧?啊,有点晕乎啊,其实只要你把官网打开,其他都不是事,阿帕机化机打开之后找找这个documentation文档。接下来这下面有两个,一个呢叫user guide,一个是developer user guide,这个guide,哎,上面这个呢,相当于是只是用来配置一些相关信息,不需要你写代码,下面这个是开发者模式,那你需要,哎,可以去自定义一些相关组件,那我们这里面就直接查看的配置就行了。打开之后新在的已经升级到1.9了,那我们用的是1.7,那怎么办呢?哎,看这个路径上把它修改成七。一回车。在找到就是一点的手册。哎,第一个就是对吧,哎,巧了哈,第一个行法就算了,就是那这里面给你相关的每一个参数的含义。
02:05
那怎么配啊?是吧,海哥我看不懂啊,全是英文,那来我们看这个。直奔主题啊,它每一个S它都给你提供了相关的参考配置,对吧,哎,参考配置。拿过来。拿过来之后你看一下,你看一下我们怎么配的啊。你对比一下。对比一下,这是官网说第一条,它的S类型呢,是卡瓦S,那你看我们的。Type类型卡马斯OK吧,哎,他写啥我们就写啥,那第二个呢,Size你看。哎,By size相当于是从卡夫卡里面每批次拉取的一般的个数。哎,默认是1000个,那这里面我们调大到5000,它也是5000嘛。是吧,也就说这是卡不卡。这是flu每批次呢,从卡法里面一次拉取5000个一本,那如果说这个卡法里面啊,到最后一批,它到不了5000个一本特了。
03:06
那你还一直卡在这不拉了吗?啊不是这下面还有一个BY啊,也就说延迟时间,如果说条数没到,延迟时间到了,这是毫秒。啊,2000毫秒到了,那我仍然要拉取这一批出去。哎,从大小和时间两方面保证,那再来除了这个之外呢,下面你看这个是啥。哎,Service指的是local host,九零九二指的是卡夫卡它的地址,那我们这里面是卡夫卡是个集群呢,哎,10210304都有,哎,对应的9092。就完了呗,那再往下,那下一个你消费的是哪一个卡法topic呀,你看哪一个卡法topic,它是TEST1TEST2,我这里面我TRYLE1或者这个SOUTH1这块只消费的是TOP10袋。哎,启动日志的那一配不就完了吗?好,那这是启动日志的,那下面还有对应的事件日志。
04:02
除了最后这一项不一样之外,是不是前面的配置都一样?啊,非常简单啊,那我就说一个OK,那再往下,那下面我们来看一下对应的这个file怎么配置。那还是同样的方式啊,收。哎,找到了,这是对应的file传,那你回忆一下file传的原理啊,传原理file传呢,说进来一组数据啊,它会在内存当中创建索引,会把数据持久化到磁盘,同时它的索引要进行一个备份。还有一个备份索引对吧,哎,这几个快速熟悉一下,熟悉一下之后呢,我们再来看一下这配置,哎,直奔主题,啥是主题啊,看这个。这就是主题。提供相关的案例。对吧,哎,拿这个案例拿过来。那看一下我们对应的配置。放大第一个,首先是类型,那我们是F传统类型,那就是F传统呗。
05:06
搞定,那第二个叫checkpoint checkpoint there指谁呀?啊,这是说给一个路径,要把这个车泡电压持久化到磁盘,那是不是就指的它呀,你在内存当中的索引是不是得持久化到一个磁盘上啊。哦,那你得给一个路径吧,好那再来,那它下面还有一个date d。啥意思?你未来的数据是不是得磁存在磁盘上的一个路径啊,那我就存在这儿呗。对吧,这是这么两个路径哦,这个含义,那看一下我们怎么配的。File搞TRYDR指向了OT model point,然后再往下OT model date另一个路径,这两个路径呢,尽量要分开。因为它这里面里面。有对应的这个优化手段,说你能配置多目录啊,尽量配置多目录,也就相当于你是C盘D盘E盘。
06:06
你往写数据的时候,你一个往C盘里面写,一个往D盘里面写,这样的一个效率会高一些,是这个道理,那你如果你都往C盘里面写,相对来说吞吐量要低一些。啊,这个道理你看这配完了,那下面还有一个keep alive6这个啥含义啊,Keep哪有六,那你看一下官方的一个描述,这是咱们后改的哈,在这。默认值呢,是叫amount of time to wait for。Put提交的一个操作,那这个是这样。来看啊。这是对吧,里面有south,有China,有那中间这块有一个put事物。那source读过来的数据会先写到哪里呢?会先写到对应的这个put list里面。然后他尝试着向这个串里面提交。
07:00
那如果China已经满了。那这个put list是不是要等待呀,等待,然后再往里面写。是这样吗?哎,等待再往里写,那他反复的往这里面写,它一直都是满,那怎么办?哎,一直都是满的话,它就会将这put list里的数据清除。清除之后,然后再重新再拉取刚才读这些数据,哎是这样一个过程,那就是他每一次说提交,哎,看能不能往上提交。那这个时间是多少意这里面说就是这样,就说这个put list,这个里面提间隔时间是多少。那同学那你就快速提交呗,哎快速提交,你一提交,哎多次重复,他就会多次提交不成功,他就会把这个数据啊就清空了,那我们希望呢,这个等待时间稍微长一点,对吧?哎,尽可能的让这个传统里面的数据消化一部分,因为因为这边还有take数对吧,不断的从这个传统里面读取数据。
08:00
啊,是这个时间,那这里面原来的三秒我们设置为六秒啊,这是keep alive啊,OK,那你再往下看啊,再看几个参数,刚才说了这个穿越发音呢,它是这个备份的那个索引,然后再往下,这下面还有两个参数,你可以看一下。先看这个吧,先看这个date d呢是持久化到磁盘的数据,那中间还有这么两个。这两个啥呀,叫U精串DR啊,啥意思呢,它呢是这个。给你截一下啊。他对应的是咱们图当中。这块,比如说这块这个索引要不要开,它默认的是false,也说没有开启这个备份,如果你把它设成数说啊,Back up,就备份这个check point if this set to对吧,哎,Set to的时候就可以备份了,那备份的路径是设置在。
09:01
通过这参数来设置,哎,你存储在哪?它存储在什么磁盘上。啊是这个含义啊,所以说你看能了解这懂这个,呃,Fair传底层的原理,那你在配置参数的时候呢,就能够游刃有余啊行,那传呢,我们也配置完了,那再往下走,下面呢是这个think,那think我们用的什么。Think是HS对吧?啊,那HS think呢,找呗,找官方文档。到。那找到as信之后,你会发现这里面提供了一些参数,哎,其实是时间相关的一些参数,那其实也好理解,我们未来是写入到ADPS,对吧,消费卡数据上APS。那我要上传到HTPS的哪一个路径?尤其是我每天产生的日志,我希望放到每天的文件夹上。
10:03
那这个时间我不希望我每次都自己去创建对吧,而且是更改这个配置信息,那太麻烦了,能不能自动根据我Linux系统的时间,然后写入到对应的。去盘上这多好啊,哎,所以说它这块提供的参数呢,是控制你未来路径上跟时间时间相关的一些参数,OK,那再往下走。下面是具体的ad相关参数,那还是直奔主题把它拿过来。E。啊,以后呢,找这个相关的配置啊,就这么做完了,然后来你看一下看一下。首先呢,这个类型是A类型对吧,我要到什么径pass。Pass路径,哎,我这里写入写入到的是original date,季贸log event,这是event的上面呢,这个是start后面这个。
11:00
百分号Y100分号MD相当于是年月、日。哎,根据日期,每天最后这个日期嘛,啊,每天一个文件夹路径是这样创建的,那其实呢,它下面还可以十分秒也能做。啊,能到这个十分秒,那我们这个十分秒啊,就会产生大量小文件了。OK,你看这不就配置完了吗。就这么简单。好,那下面呢,它还提供了相关哎处理小文件相关的一些办法,那这个我们先不给它放进去,一会我们先让它产生对应的问题。然后再来测试,这多好啊,哎,我们先看到现象之后再来优化它,那再往下下面这块呢,是处理这个。呃,压缩流我们希望啊,数据落到HTS之后啊,是采用拉着罗P进行压缩的。爱是这种。那这怎么做到呢?那你看一下对应的这个参数,一切呢,都来源于它相关的参数啊。参数的话呢。
12:02
看这块儿,哎,看这块儿这块啥呀,这块啊。这块呢,说是file type类型,哎,然后有file date stream,还有comp啊压缩流,那如果说date stream用not压缩,你说这个流啊,如果不是压缩流的话啊,Please doesn't set,比如说你不要设置它,那如果你这个流呢,是压缩流,那怎么办?我还得设置这个压缩流的一个编码方式。那看这。哎,它提供的编码方式呢,有g dip b dip to,拉住罗,拉住了P和s snapp。那我们这里选谁呢?哎,我们选择拉住了P,因为拉住了P呢,是支持索引的。我们选择它啊,行,那你看这里面配置呗。对吧,首先我们要设置它是一个压缩流,其次我们要配置它是一个拉着罗P的解码方式。
13:00
这就OK了啊,最后呢,把这个组件拼接在一起。啊,那你稍微回顾一下,配置一个flu配置,呃,配置文件主要分这么几步,第一步定义组件,第二步配置source,第三步配置,第四步配置think,第五步呢,配置对应的。这个把它拼接在一起。就完事啊,这么核心的几步。行,那下面呢,我们开始,嗯,创建演示一下啊。嗯,保存一个视频。
我来说两句