00:01
好,那接下来我们就开始进入到我们这个项目的一个处理过程了啊呃,那首先我们先讲的是日志数据的这个采集和分流啊,因为我们是分了两种数据的啊,一种是这个日志数据,那么还有一种是我们的业务数据啊,这个我就不再多介绍。那行吧啊,因为大家是做过离线收仓的啊,对这个数据的种类应该是很清楚的啊,我们先来说这个日志数据的采集和分流啊,呃,那上来以后还是先去介绍一下我们这个整体的一个架构,就是我们在这个环节中,我们的数据的一个什么处理的流程是什么样子的。对吧,来看一下啊,给了一个图。好,呃,首先啊,现在我们的数据呢,就假设啊,我们的数据是放到这个日志文件中的。能理解吧,啊,假设是放到这个日志文件中的,那如果你数据放到日志文件中的话呢,那我将来就要什么通过这个去做一个采集了。对吧,那采集的话采到什么地方呢?肯定踩到你的卡不卡呀。对不对,所以说首先啊,我们要先完成的是一个采集工作,就是要把你的日志数据呢,想办法给他什么采集到我的卡发卡中。
01:07
然后呢,先放到一个统一的一个topic中,就只要你是日志数据,我就往这个topic里面去放。能明白吧,只要你是日志数据,我就往topic里面去放。好,那么这个是基于你的这个日志文件来去做的,好呃,那我需要说一下我们目前是怎么做的啊,因为我们是通过这个数据的一个生成器来去生成数据的,对不对。能听懂吧,同学们啊,我们是要什么通过这个数据的一个什么生成器,然后呢,去这个生成数据的。好,所以说我们在这个生成数据的时候呢,我们可以选择把数据呢,先生成到你的日志文件中。啊,可以选择先把数据呢生成到日志文件中,然后呢,也可以选择直接把数据就生成到你的卡夫卡中。那么这样的方案啊,第一种方案就是如果说你把数据放到你的日志文件中了,那就相当于我们需要走一下的采集过程啊,如果说我的数生成进呢,直接把数据生成到你的卡不卡了,这就是我说的那个直发的方式啊,我直接就把数据呢发到你的卡不卡就省了采集的过程。
02:13
OK吧,好,那我们目前我们选择的是第二种,就是我们那个生成器,大家这个之前所使用那个生成器,它是可以什么直接把数据发到卡不卡的。OK吧,啊,这个事情你要知道啊,行呃,数据发到卡夫卡以后,接下来就是我们这个核心的处理了啊,那你的采集工作就完成,完成以后下面就是通过我们的Spark streaming,然后呢,进行这个处理。那我需要从你的卡不卡中把数据呢拿出来。能听懂吧,哎,把数据拿出来,拿出来了以后。接下来我们就要做分流了。啊,现在我们主要任务就采集和分流,采集完成下面就是分流,怎么分流呢?对于我们的日志数据来讲啊,大家应该都还记得我们的日志数据呢,分两种,一种是页面访问对吧,一种是这个启动数据。
03:02
对不对,好,那启动的话呢,我们将来就什么直接把这个启动呢,放到一个启动的一个topic里面就可以了,好,那这个页面访问的话,那就包含比较多了哈,对吧,有什么有你的这个页面数据啊,有你的这个呃曝光数据对吧,有你的事件数据。是不是啊,等等一些有好几个,那我们需要把这个呢,单独都拆出来,然后呢,放到不同的这个topic中,那么将来的话呢,你在用的时候,诶,想用页面访问,你就找页面访问的topic,你想用曝光的,OK,那你就找曝光的topic,就是给它拆成什么具体的这个明细啊,所以你看接下来我们的操作就是拆出来,那么拆出来以后,你这数据往哪放呢?我们还是往卡夫卡里面去放,作为一个什么中间数据处理过程的一个什么存储介质。好吧,你看啊,像你的启动我就放到什么启动的这个topic里面,像你的页面访问,我就放到页面访问的topic,那你的动作就放到动作里面,你的曝光就放到曝光里面,还有一个是你的错误数据,那我就放到错误的这个topic里面。
04:01
就是相当于我们分流到诶不同的topic中啊,从一个统一的topic把数据拿出来,然后呢,再分流到诶不同的topic中。明白这个过程吧,好,那你放到这个统一的这个topic中,它就是我们的ods层,那我做完分流以后呢,这个其实就是我们的DWD层了。就说白了,就是大家这个所谓的什么明细成了。对吧,你看这个是不是已经相当于很明细了呀,就是你的,诶每一种数据我们是放在了不同的topic中,以前你们是表对吧,现在我们是topic。其实都是一个道理。OK吧,那么这就是我们,诶,在这个日志数据的采集分流中,我们。要做的事啊,这就它的架构。还是很清晰的吧。对吧,先搞定采集,然后呢,再通过steming呢,把数据拿过来,通过代码的方式呢,把数据给它分开,分到不同的topic中就完事。好吧,把这个图记到你的脑子里面,然后接下来我们在处理的过程中,哪个环节你想不清楚了,你就回头去看看这个图。
05:05
OK吧,行啊,我们先说这么多。
我来说两句