00:00
好,那上一节呢,我们已经完成了整个数据仓库的工作流程当中的最后一个环节,对吧,就是ADS到MY啊,那随着这个脚本的执行完成呢,我们第一天的数据,也就是2020年6月14号的数据,对吧,也已经从最开始的业务系经过整个二流程的计算啊,现在呢,到达了MYSQ当中。啊OK啊,那现在呢,距离我们这个全流程调度啊,就只剩下最后一个准备工作了啊就是啊诶其实就是准备一天新的数据,那咱们准备肯定准备第二天,也就是6月15号的数据,对不对,那关键是啊啊咱们在做这个全流程之前,哎,我们数据给他准备到什么地方。啊,那咱们数据一共有两类对不对,用户行为日志,还有MY思当中的业务数据啊,我们先说业务数据,你说业务数据我们给他准备到哪就行了。业务数据,业务数据是不是只要准备生成到买里边就可以了,为啥?因为此库导数据的任务是不是被包含在我们这个全流程调度里面了,对不对,诶但是这个日志呢。
01:03
我们得怎么样,是不是得写到HDFS才行对不对,因为哎日志的这个传输日志的同步我们是没有放在这个全流程当中的,能理解吧,那所以说我们现在需要做这的两个准备啊,最终明确一下啊,日志我们需要给他准备到HTS上,业务数据呢,只需要写到MY就可以了啊,那现在咱们开始先准备用户行为日志啊,那大家还记得用户行为日志的这个呃,生成过程吗?还记得吗?首先我们需要先启动之前的采集通道对吧?那咱们为了节省资源,之前采集通道用完就关掉了,那现在呢,我们再给它提起来啊,首先要想起他得先起ZK对吧,先起ZK。之后呢,起来呃,卡不卡对吧,稍微等一下啊好,这个起来了,我们来看一下状态SS。Leader follow对吧,诶没问题,完之后呢,再来一个这个F,呃呃,这个再来一个这个Kf.SSH启动卡夫卡。啊,那卡普卡呢,启动之后呢,我们再启动前后的对吧,用F1和f2.c这两个脚本,S1先写之后呢,再写F2。
02:10
啊,那现在呢,就都已经齐下来了啊,我们看一下这个进程S靠GPS啊,应该是没问题对吧?咱们就不一个要找了啊,那完了之后呢,我们是不是就可以准备去生成日志了,对不对,那当然了,要生成日志得改一下谁,这次是不是得改一下配置文件对吧?进到log,然后改谁是不是改了改一下这个application点压面文件啊对吧?来打开,打开之后呢,我们只需要改一下这个日期就行了啊,给它改成15啊,那只改一这行不行不行,103是不是也得改对不对,因为我们是不是一共有两个日志服务器啊对吧?来我们再进到OPT model log修改点文件,然后shift Dollar来个幺零,呃,来个幺五啊就可以了,那现在呢,我们就可以执行之前那个Lg.SH生成志的脚本去生成日志,对吧,来回车啊,那现在如果我们的采集通道没有问题,数据是不是会被传输到HDFS的15号的路径当中,对不对,咱们去检查一下看有没有啊,这个一定要。
03:10
检查一下海豆和幺零,嗯二应该9870,然后我走,我们进到这里边找到哪个路径,Date对吧,然后呢,进到J,进到log topic log,诶六月15已经出现了,对不对,但是我们现在稍微等一会啊,等他啥,等他把这个T关掉之后再说啊。稍微等一下。哎,放心。咱们应该是十最长十秒钟就关闭了对吧?啊,OK,那两个文件全部生成,那也就是说咱们15号的日志就已经准备好了啊,那准备好之后还是考虑到这个资源的问题啊,那这个卡夫卡是不是咱得给它关了呀,对吧?来我们给它停掉啊,实际生产环中这个东西是不需要停的,对吧?大家理解一下啊啊lo停掉,然后呢,卡夫卡我也给他停掉,Stop,但是卡夫卡停的话比较慢对吧?呃,那所以说组ker我们就先不停,等一会卡夫卡彻底停掉,我们再去停组K啊好,那现在我们再去准备6月15号的什么数据业务数据对吧?那进到OPT Mo啊,DB log对吧?那这边我们也需要修改一下这个配置文件在这里边呢,我们这次只需要修改,这是不是只需要修改日期就行了呀,对吧?啊,完事之后shift对改成15啊,那现在我们执行这个Java杠这这个命令,找到这个账包,然后直接回车,好,那现在他是不是就会往买SQ当中去生成6月15号的这一天的数据啊,对吧?OK。
04:33
在稍微等一会儿。好,这已经有日志打印出来了,对吧?啊,是不是已经生成了6月15号的新数据了,对不对,那也就是到现在为止呢,咱们的呃,新数据是不是就准备好了,没没错吧,日志已经到了HTS了,业务数据已经到了MYSQL里边了啊,那现在也准备好了啊,那我把视频停一下。
我来说两句