00:00
呃,回顾一下,呃,那么其实呢,昨天咱们主要呢,讲的是我们这个首单分析对吧,它的一个数据采集这一块啊,那么首单分析呢,首先大家知道对吧,那么咱们现在呢,要做首单分析是吧?那么首单分析的话呢,这个数据应该来源于哪呢?应该来源于我们这个业务啊订单的业务数据,那么这个业务数据呢,在我买SQL里边,那我这个MY搜Q数据库的数据啊,那我现在想实时的获取,那怎么来获取呢?短,那咱们使用我的can或者是Maxwell对吧?那这两种方式呢,对吧,大家呢都要尝试一下,对,有些东西现在是kind完事了,那Maxwell呢还没试对吧?那咱们后边呢一直用我们的Maxwell,就大家呢把这两种方式都要试一下是吧?然后接下来那我们通过我们这个kind或者Maxwell它的一个配置啊,然后呢,将我们这个业务数据啊,采集到我们卡不卡它对应的主题里边来,对吧?但是这个时候呀,有一个问题什么呢?就是我所有的数据的变化是不是都是采集到咱们。
01:00
当前我们现在是吧,这一个主题里边来了呀,所有表变化的数据啊,都在咱们这一个主题是吧?都这一个主题,所以说呢,那咱们需要对我们这个数据啊做一个分流啊,那么咱们是怎么做的呢?我们写了一个我们这个Spark stream程序对吧?写的Spark程序,那么这个Spark stream程序呢,它主要负责的事,从我们的卡夫卡呀,先把这个数据给拿出来啊,就读取我们现在对吧,这个两个主题数据对吧?那么这块呢,大家注意啊,那现在因为我们两种方式了,那一个是读取我们这Kindle对吧,它采集到主体数据,那么另外一个呢,对吧,那么咱们呢,如果说我要是马采集的话,那么他也要读取我们这个啊这个主题数据,然后将下来,接下来呢,那么咱们把数据给拿到之后呢,我们根据我们当前采集到的一个,呃,这个Jason啊才叫Jason,那里面有个属性啊叫什么啊table,然后呢,咱们根据我们的表名,然后接下来将我们现在的这个数据啊发送到不同的。
02:00
的主题里去,那么具体咱们这个代码呢,大家可以看一看,昨天呢,咱们在这里对吧,来到我们这个啊ods层到ods层,那么我现在呢,在ods层我们两个实现的,一个呢,是通过我们这个Kindle的去做一个采集啊,一个通过Kindle来做采集,那么如果通过kind做采集的话,那么前面这一套东西呢,那都是固定的对吧?先获取我们这个偏移量,然后根据偏移量呢,到卡普卡来拿数据,对吧?然后接下来那么咱们把我们当前批次它消费的我们的偏量都给记录下来,然后接下来呢,在咱们这里边,我对我的数据呢,做一个格式转换,原来是字串,现在呢给转换成基因对象,这个基对象呢,方便我们来进行操作,对吧?然后接下来那么咱们呢,要这个什么呀,要我们分流,那么这个分流呢,那应该这样对吧,我们现在呢,使用我们这个行动算子for r DD,然后接下来在Ford里边呢,对我数据来做。
03:00
一个便历,每次遍历啊得到的是一个G对象,然后接下来那我们判断一下当前呢,它是不是我们现在对吧,这个insert对吧?当前我操作是不是insert操作,那么如果说啊,咱们现在是我们这个insert操作的话,那么这个时候呢,我要去把咱们什么表名啊,对什么数据啊,像这些东西给它获取到啊把这个表名,然后咱数据呢给它获取到对吧?然后接下来那么咱们现在呢,那么获取到之后呢,这里啊,我拼接一个新的to米名字,就我现在要给你表明,然后把这个表当前的采集到数据对吧?给它发送到我这主题里面来对吧?那么这个时候呢,本身我拿到的是一个对的数组对吧,其实是一个JS格式数组,然后咱们现在呢,对我的数组啊,做一个转换转成该了,然后接下来那么咱们通过我们封装的一个工具类,然后把当前我们的一个数据啊,把当前数据给发送到我们的卡夫卡对应的主题里边去啊,给发送到我们的卡法对主。
04:00
推出去大概呢,是一个这样的一个操作啊,然后最后那操作完之后呢,咱们把偏移量啊给提交一下啊,我提提交一下,其实整个呢,咱们现在这块呢,大家注意整个我现在蓝色区域啊,它其实都是什么,都是我们现在这个卡夫卡的内容,对吧?那么只不过呢,我们在卡夫卡里边要进行一个我们的分层啊,在卡卡里面进行分层,这个其实就和你们在have里边进行分层是一样的,对吧?有的说我have分五层,你这里是不是也一样的对吧?那不一定,同学们不是说咱们学了五层,你到时候在咱们这公司里边一定是五层,对吧,那得根据什么呀,对吧,如果说你要是自己去设计的话,同学们这个可能是五层,对吧,因为你就这么这个这个习惯的嘛,对吧,或者说我现在做实实你可能和我的分层方式一样,对吧,等你到公司的话,那每个公司可能有不同的一个项目经理对吧,你看项目经理他是怎么做的,怎么设计的,对吧?哎,所以说这块呢,要有个分层思想对吧,那么这块其实算不算分层呢?这块其实严格不算这个什么,这个其实是不就是我的采集数据啊,对吧。
05:00
这这块就是一个采集数据,然后接下来,那么采集数据分完这块分流呢,那其实呢,它属于什么?属于我们这个ods,呃这块呢,其属于我们这个ods层对吧?那么这个ods层它是怎么做的?就是根据我们这个SPA推并程序对分流之后对吧,然后接下来对吧,然后呢,啊把这个写回写回到我的卡卡之后,对形成了一个ods层,对形成一个这样的一个数据,呃这块呢,是咱们昨天内容啊,那么对于我们昨天的内容,包括咱们前面到目前为止大家呢,就写的代码对吧?那么哪些代码呢,大家必须得知道对吧,首先对吧,就假如说啊同学们让你们自己去对吧去写的话,对吧,最起码呢,怎么样去连接啊,卡不卡这个你得知道。对吧,反正这个东西如果说你要去复制粘贴的话,也没太大问题,对吧?但大概的思路你是不是知道对吧?那些参数呢,你可以复制粘贴,比如说因为现在要卡链接,卡不卡的话,需要提供一些参数,这个参数有哪些啊,你可以复制粘贴,但是最起码你得知道我如果要是往卡卡的生产数据对吧?那么这个它底层呢,其实是new的一个卡卡producer对吧?如果说我现在要从卡卡里这个消费数据的话,那么这个时候注意,如果你要是没有Spark的话,那这个时候呢,应该是consumer对吧?啊,卡卡consumer,但如果有咱们那个SPA SPA swimming的话,这个时候咱们是不是应该是通过我们这个卡卡U对吧,来获取一个离散化流啊对吧?哎,那么这会呢,也要注意一下,然后另外一个呢,那么重点重点重点对吧,就是这块啊,这个东西是不是关于我们这个精准的消费啊,那么以后呢,再有机会我再去这个检查大家作业的时候呢,可能就是让某些人说一下了,对吧,比如说我们现在做了这么多这个这么多次啊,这么多遍进入一次消费,对吧?那。
06:48
你这个东西呢,你得给我描述明白对吧?比如说我现在一说到基准一次性对,让你给我描述对吧,你应该把这一套给我描述出来,那么你们是怎么样保证精一次消费的对吧?那这块呢,大概的实现过程你要应该给我说明白,而且大家在描述的时候啊,注意啊,一定要有个度对吧,不要说什么,就来我现在描述一下精理的消费,你到这里把这代码给我背出来对吧,这块不要对吧,给我说一个度对吧,你们到时候可以准备,后边会问啊,后边会问对吧,把这个呢说停。
我来说两句