00:00
好呃,架构说完以后,那么下面我们就一步一步来完成,首先我们先完成第一步就是采集日志数据。对吧?好,那如果你要采集这个日志数据的话,呃,首先我们得先去把这个生成器再来给大家去说一下啊,这个呃,可能有的同学已经忘了哈,我再来说一下,好,那这个需要回到我们这个Linux中啊,我去连上啊。行,呃,那么大家首先呢,需要把这个生成器的这个数据啊,就生成器需要用的东西呢,给大家准备好啊,呃,我是把它放到这个地方的啊,同学们放到我的这个OPT model下面,然后呢,我叫applo,因为现在我们研究的是日志数据,那我用的是这个applo里面的啊来过来好,呃,过来以后的话,我们有这么几个文件啊,给大家去说一下啊,我把这个先删掉啊。好,这个先不要啊,行,大家看一下啊,其实我们最核心的就是一个是这个牙email配置文件,然后还有两个是这个日志的一个配置文件,还有一个是这个路径的一个这个配置文件,对吧?然后呢,还还需要有一个炸包啊,呃,这个炸包的话呢,我现在给了两个啊,但其实呢,我是想用一个啊,就是我得先明确一下,大家手里面,就你们现在手里面用的生成器是哪个日期的,看一下你们的日期啊,就看后面这个日期啊。
01:21
来这个大家看一下,然后告诉我一下啊。我先明确一下,你们用的是哪个,因为咱们这个好几个老师讲的啊,说这个可能不太一定不太统一是吧。最新的最新的也得看日期啊,因为你这个最新你得看你是在什么时候去聊,这个最新的是半年前吗?还是现在。对吧,十月份是不是是用的这个吗。1129 OK,那没毛病啊,来听我说一下啊,同学们。你看有用这个10月10号的是不是来听我说一下啊呃,如果说你现在用的就是11月29的这个对吧,那就没问题了。
02:04
对吧,那就没问题了啊,如果说你用的是这个什么10月10号的呀,或者什么这个别的日期的。对吧?啊,那我告诉大家,你们统一都更换成这个11月29的这个,如果说你手里面没有的,那你可以到我的资料里面去找啊,我资料里面是提供好了的。看到了吧,我资料里面是提供好了的,你把这个东西拿过来去用。OK吧啊,把它拿过来去用啊,行呃,为什么要去更换一下啊,给大家去说一下,因为呃,其实这两个里面去就是不同的版本里面这个,呃就是做了一个微调啊,它调整的不是很大,呃这里面我们主要调整了一个字段。啊,哪个字段呢,就是我们在生成的那个,呃,页面数据中啊,我们有一个那个叫什么省份的那个啊,省份的那个字段,以前的话,我们生成的是那个六位的那个什么地区编码啊,就是六位的一个什么地区编码,但这个东西吧,在我们后续的处理过程中呢,很麻烦很麻烦啊,特别是我们这个实时处理过程中很麻烦啊,所以说我们把它调整了一下,我在生成的时候呢,就不再生成这个六位的地区编码了,直接生成的还是那个省份的一个ID。
03:11
啊,这样的话呢,我们在后续的处理过程中呢,就会比较方便,好吧,先把这个微调给大家去说一下,等我们后续呃,涉及到这个点的时候,我再来给大家去展开说一下。听懂了吧,啊说要求啊,就是你们都换成这个啊,如果你要不换成这个,你在后续做的时候呢,呃,我是能成功的,你们就成功不了了。明白了吧,同学们。好,来这个明白的同学啊,你这个下去以后自己把它更换一下啊,OK,行,那这个有了以后呢,接下来我们就可以给大家去说一下,那我怎么把数据呢,生成到我的卡夫卡中来,我们需要来到这个配置文件中啊好呃,进来以后啊,大家注意往上翻。就大家这个之前哈,你们这个发送的模式,你们应该用的是这个log。对吧,你们可以自己去看啊,你们应该用的是log,但是这一次呢,我们就不再使用log了,因为log呢,它就是把数据呢,生成到你的日志文件中的。
04:06
啊,那我们这一次不要了,我们想让他直接发卡卡不卡,所以说我就把这个给它注释掉,然后呢,把这种模式给它打开。就是我们数据的发送模式,我们直接改成卡夫卡就可以了。理解我的意思吧,好,那你改成卡夫卡以后呢,诶,下面的这几个配置就尤为重要了啊,就是卡夫卡模式下你要发送的一个地址。那你得告诉我你的卡不卡在哪里对吧?以及你要发生到卡不卡的哪一个topic中。所以说你看一下啊,卡不卡的服务,我要给他配好了,就按照你自己的情况去配啊,我的是102103和104啊,就是我自己的这个虚拟机啊,然后呢,我要发到这个102103104啊,这是配你的地址。能听懂吧,后面是端口号啊,909290929092。兰杰啊,这个配上两个或者配上三个都可以啊,最好配两个以上啊,因为你配一个的话,假如说你配了这个故障了对吧,但其实我剩下两个呢,还能够工作,但是呢,你就找不到这个卡不卡,那你配上两个的话呢,最起码能够保证有一个坏了,我还能找另外一个。
05:11
对吧?啊,这是配置的一个要求啊,想下面这个就是你要把数据呢,发送到卡不卡的哪一个topic中。啊,因为我们第一层我们就直接发送到一个统一的一个topic就可以了,说这个topic你就自己去确定一下,你要发送到哪一个好,那我一般就是叫ods,因为它是ods层嘛,我就叫ods base logg,就是基本的一个日志数据,还没有做过分流的。对吧?啊,因为我在每个班呢都会讲,所以说我可能会有冲突啊,因此的话,我在每个班呢,我都会在后面呢加上一个班级号啊,这样的话我就不会有冲突,对吧?那比如像我们呢,我就来一个1018了。能看到吧,啊,这是我对它的一个修改啊,行,然后别的东西的话,我们就一律不需要再去更改了啊,对吧,只需要改这么几个东西,一个是你的摸tap啊,一个是你的这个就是卡夫卡模式,下面你要去把这个卡不卡的一个地址以及什么topic给他配好。
06:11
听懂我的意思了吧,好,然后剩下我们以后在这个生成数据的过程中,我们还可能再去改的就是这个业务日期了,对吧,你想生成哪一天的数据,那你要去改这个业务日期啊,这个应该不用我强调啊,大家这个之前应该都知道怎么去改。对吧,应该都改过啊,好吧,来这是我们的这个配置文件啊,好,那把这个配好以后,接下来我们就可以测试一下我的数据呢,能不能生成成功啊,那如果你要测试的话呢,首先你得把你的不卡启动起来啊,你要启动卡不卡,你得先去启动你的主C啊,啊这是我们这个主K的脚本啊,这个大家应该都有吧。对吧,我就直接去用了啊好启动主课本。OK,呃,主K启动起来以后呢,接下来启动卡不卡啊,这个卡不卡的脚本你们应该都有吧,啊,这是我这个卡不卡的一个脚本,OK吧,如果说这个,呃,没有这个脚本的同学呢。
07:09
到这个文档中去看啊,我文档中其实提供了两个脚本啊,这个到时候我也会给大家去说一下,因为这两个脚本我会反复去用啊,所以我就去说了一下啊,好,那我先用一下啊,我先把它提起来。好呃,启动起来以后呢,你最好去看一下这个进程都有没有啊。这个是的。哎,然后呢,卡不卡卡不卡,卡不卡,OK,那没问题,好,那没问题的情况下,接下来我们就可以做测试了,我们现在想。测一下这个生成器啊,看看能不能够把数据呢生成到我的这个卡夫卡中,那你怎么看能不能生成到卡夫卡中呢?那你就得启动一个消费者,我是不是可以先尝试去消费一下这个数据啊,如果说我能够从你的这个掏费者中消费到数据,那说明你的生成器是能够把数据呢生成到我的卡不卡中的。
08:04
对吧,那我的采集工作诶其实就已经完成了呗,对不对,来我们试一下啊好,那我来请一个消费者。好,这个消费者怎么起呢?我们叫卡不卡杠cons,然后呢,Consumer对吧,然后呢杠杠boop,杠subber,然后呢,我们写上一个地址叫9092,然后杠杠topic,那这个topic写什么呢?这个topic就写你刚刚这个里面写好的。对吧,因为你的数据要往它里面发,那我消费不就从它里面去消费吗。难道还明白总结没?对吧,这样写就可以了啊好行,那我先把这个消费者给他启动起来。好,他应该会有一个报错啊,就会有一个警告,因为现在这个topic呢,我们还没有啊,说你在这个第一次去消费的时候呢,它会帮你去,呃,创建这个topic能听懂吧,那么创建好topic以后,它会有一个什么这个leader的一个什么选举过程啊,说它会有个警告啊,你不用管它,好吧,那接下来我们就可以去生成数据了啊呃,生成数据的话,我们就是什么直接Java杠这对吧,注意这个路径啊,一定要在你这个当前的诶能看到这些文件的这个路径下啊,就在这个lo里面,然后呢,我们就生成一下啊,我们选用的是gmail-1129这个炸包。
09:19
能看明白吧,来回车。好,他就开始帮我生成数据了,然后你看这个地方是不是已经能够消费到数据了呀。对吧,来我就这个结束了哈。好,你看一下我是不是能够消费到数据的呀。对不对啊,这是没有任何问题的啊,OK,那如果你能够消费到数据的话,那说明我们的这个采集工作呢,其实就已经完成了。好吧,诶这个大家应该都是能够完成的啊,以前你们都是这么去做的,只不过这一次呢,我是把它发到卡布卡了呗。对吧,相对还是更省事了啊行,那我们这个呃,采集的过程啊,就。
10:01
结束了。好吧,停一下。
我来说两句