温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
好,那接下来我们看一看离线输仓的这个同步的通道是什么样的啊,来到我们的第三个文档,在这我们看离线数仓同步啊,你看啊,那首先我们看看数据同步的通道。哎,那离线收藏这呢,呃,我们也分为两个,一个叫做用户行为数据的同步啊,一个叫做业务数据的同步,那我们一个一个看,先看用户行为数据,诶它的同步通道,那用户行为数据我们是存储在哪的呀,是不是存储在卡夫卡的一个topic当中了,叫做topic_log。啊,有这么一个topic叫topic啊好,那接下来我们要干嘛呢?我们要把这个topic当中的数据给它放大。稍等啊,打开PPT。
01:00
好,OK,那接下来我们看看用户行为数据的,哎,这个采集通道,那我们的用户行为数据是存储在卡夫卡的一个topic当中,Topic的名字叫做topic到log下线log,那topic下游线DB是存储业务数据的啊,我们要把这个topic的数据给它导入到HDFS啊,那这个很简单呢,我们刚刚也分析了,是不是以用谁来做呀,可以用来做,哎,现在不要考虑的选型,我们现在只知道可以用来做这个事啊,肯定能啊,读卡不卡吗?啊,然后再往HDFS里写。好,那往HDFS里写,哎,是能写进去了,但是我们还要考虑一个问题啊,啊,我们这个HDFS上的数据,它最终是要给离线数仓,也就是我们的have来做计算的。那我们的have要做计算,哎我们呢,为了计算方便呢,我们的have表是用分区表来做的,并且呢是按天分区,哎按天分区啊,那我们如何能让HDFS和have的按天分区表进行一个这个搭配使用呢?啊所以说你看啊,漏的时候,我们是不是就最好让它漏的一天的数据啊,哎漏的到一个分区上,那这样是不是最好啊啊这样他们两个呢能搭配使用,那我既然想漏的一天的数据,那么我们HDFS这个地方存储的时候怎么存储比较好?
02:41
是不是我存储一天的数据啊,我把一天的数据放到一个文件夹当中存储。诶,这样用起来是不是就比较方便了啊,你看那离线出仓呢,我们采用的是。分区表,哎,按天分区统计啊,那目标的这个路径我们是不是就尽量啊,让它包含这么一层日期呀,哎,按天来进行划分,哎,所以说我们就可以直接在这漏的时候漏的一天的数据了,那好了,那接下来我们就看看这个我们应该如何设计呗,如何设计能达到我们一个想要的效果。
我来说两句