00:00
好,那接下来呢,到我们的一个架构啊,到我们的一个架构这块,那这个刚才给大家看了这个PPT呢,由于我分屏了对吧?呃,PPT呢就不太好看,所以呢,我把它放大一点啊把它放大一点,这个能看清吗?这个图。能看清这个图吗?可以对吧,啊,那咱们就这样看一下,因为我一。你点击播放之后,它就会切到另外一个屏上面去了,因为为了我们看弹幕方便嘛,所以我接了一个屏啊,本来是可以放的对吧,是这样子的一个情况,行,那接下来呢,这个图啊,我们再带着大家过一下,大家快速过一下,因为这个是比较清楚的,从我们的采集对吧,到离线收仓,我们一直聊的都是这个架构啊,一直聊的都是这这个架构啊好,那我们看一下首先。第一块啊。第一块是咱们的这个。Webb啊,它可以发送请求到我们的NX做负载均衡,将我们的请求呢,传输给我们多台业务服务器,以及如果你是行为数据的,那传给我们的行为服务器,也就是说日志服务器对吧?日志数据好这是前面,那大家在面试的时候注意一下,如果你要聊这个东西。
01:22
对吧,你要聊这个东西,那你一定要注意一下,注意一下什么事呢?这个东西啊,就是说你了解他,而不是你做的,因为这个确实在工作当中不是咱们干的,是Java干的,但是你要知道这个流程是什么样的。对吧,要知道这个流程好,那接下来呢,我们日志服务器呢,将数据进行一个落盘。啊进行落盘,那对于我们的业务数据呢,我们是写到MYSQL里边。我们是写到这儿了。对吧,呃,行为数据落盘处理。那这个到这一块,截止到这块位置都是Java后台所干的一个事情,那我们做了什么事呢?我们接下来的事情就是我们做的,那比方说用from。
02:07
采集行为数据用scoop。采集业务数据对吧,而且在这个当中啊,最重要的一个点,我告诉大家在离线数当中就是说它的。同步。模式同步方式有哪些?大家告诉我scoop同步数据的方式有哪些?我们借着这个相当于把之前的东西稍微的去回顾一下。同步的方式有哪些?增量全量新增及变化不全,哎,耿总说对了啊,耿总没问题对吧?啊,好多同学现在也写出了叫增量全量新增及变化以及特殊吧,不要漏了这个特殊啊,不要漏了这个特殊好吧。
03:06
对,不要漏了这个特殊增量全量,新增级变化以及特殊好,呃,那我再问一个问题啊,斯库这个东西,它凭什么能够导这个增量全量,还有这个新增机变化,我们是怎么处理的?对吧,大家刚才说到有增量全量新增级变化,那我们怎么处理的这个呢?我们是通过什么方式来做的呢。对了,在三个当中,我们有一个未要条件判断日期吧,对判断日期啊,如果说我们只要新增,只要新增那就是。创建时间等于今天只要这个数据,那我们要新增其变化呢?对吧,增量全量就简单WILL1等于一对吧,全量是不是WILL1等于一,增量是will create time或者说create data对吧,等于今天,那如果是增量。
04:09
就是刚才我们说的,如果是新增及变化,那中间加一个二创建时间或修改时间等于今天对吧?好,这个没有问题,特殊就导一次嘛,这个不需要什么条件不条件的啊,这个一定要清楚,好,那接下来就导到HDFS了,之后呢,我们用load命令加载到这个have里边,对吧?加载到have中间啊,这个没有问题,那接下来还有一个,我们再问大家从日志数据当中用from采集,那from我们用的是什么south,什么China,什么think。以及我们为什么要用这个south China加S。
05:03
对了,Tell s加卡布卡China没有think,是不是我们没有think这一层当中呢?没有think,因为我们接下来将数据直接传输到卡不卡通中。啊,对了,没有think啊,呃,开S呢,主要是断点续传,但是我需要告诉大家一个事情啊,这个是架构分析啊,我写一下。架构分析当中,第一个呢是school school这个导入。数据的方式啊,那当然说了,叫有全量,增量新增及变化,还有特殊,特殊的我们可以先写一下,只导入。一次啊,或者说偶尔导入一次对吧,好全量的话就是will。一等于一对吧,啊V1等于一好,那这个呢,增量是will。
06:03
创建。时间啊,当然有时候是create time,有时候create data等于当天啊,你要导的数据那一天对吧?啊,那新增及变化呢,那就是创建时间等于当天或者这个操作时间。等于当天对吧?好,这是school,我们导数据的时候,那接下来关于from这个点,我们有一个东西需要给大家去加以说明,你们之前没有学习,没有学习到的一个点啊from呢,我们刚才说了第一层用的是tell。第二。S。对吧,我们用的是这个south,然后呢,用的是卡卡China。啊,用的是台电压S加卡布卡山的这种方式,对吧,那大家也说了它的好处呢,有这个断电续传。啊,锻炼是还有呢,好处还有什么。
07:06
那可以监控多,目录多。文件吧,多目录多文件是不是好,这个是属于它的一个优点,好,那我们先聊优点。那我们为什么要用这个卡夫卡China呢?实时监控啊,那这个也算啊,叫实时监控,就是说你这个文件一旦发生变化,我立马能拿过来,对好,那我们用卡法拆的,因为主要是优点。优点是在于将数据写入卡夫卡,省了。一层think对吧,选去了think快乐啊好,那他tell有没有缺点呢?
08:03
他有没有缺点,大家知道它的一个缺点吗?这个地方我需要跟大家说一下啊,当只能读文本啊,那个倒还好当文件啊,这个是一个问题啊,这里面有个问题在当文件更名。之后会。重新。读取该文件。造成重复。对了。啊,他可能会有这个数据重复问题,而且是整个文件重复,而不是说你挂掉了,你这一点点重复,我们不是聊的这个事儿啊,这个事儿咱还好,那这个时候当文件更名之后,它就会造成数据重复。啊,它就会造成数据重复啊,那这个问题怎么解决呢?比较简单啊,来我们给大家演示一下这个现象。
09:02
啊,我们先给大家演示一下这个现象。好,CD的OD Mo到我们的form里面来啊呃,那这边啊,注意这个是原版的Java包,我是修改了源码了。我修改了源码,对,会从头来,会从头来啊呃,那我们看一下它为什么会导致这个现象啊,我们给大家解释一下这原因,我先把这个现象演示出来可以吧,来这样我把这个屏呢先解。
我来说两句