00:00
好呃,按照我们前边的规划啊,我们之前已经带着大家呢,去做了一次那个维度建模了,咱们已经做过一次实操了,对吧,最终我们规定定下来呢,我们当时一共应该是选了八张事实表,几张维度表啊,六张维度表八张事实六张维度大致呢是这么多啊,八到十十六张维度啊来我们一起看一下啊来。八张事实六张维度,那八张事实咱们看一看都有哪八张啊,来支付事实看到了吧,退款事实,评价事实啊,订单明细,然后呢加购。这个是什么?这个是哎收藏还有一个啥,诶领券,还有一个最后的一个订单实实表,咱们有这八张事实,那这八张事实呢,我们这儿有分类啊,你看啊,前几个啊,支付退款评价和订单明细,这都是啥事物型实实表,那这种实时表呢,是最典型的,是不是也是最简单这种实时表啊,对不对,最典型的啊,因为它相当于是增量表,每天直接把新增拿过来就完事了,对不对啊,很简单,那第二一个呢,是周期型快照,他们俩是啊,加购和收藏,因为我们并不是很关心它那个具体的加减操作,对吧?所以说他们作为这种周期型快照时表,呃,那这两种时表呢,其实做起来也很简单,就是每日快照呗,对不对,也很简单啊,其实难主要难在什么上面啊,哎,累积型快照师表是比较难的,你说它为什么难呀?
01:30
他为什么难呀,因为这种实时表示,一般情况下我们是需要干什么的呀,是不是需要去修改这张表当中原来的数据的呀,就是因为一条数据呢,我是分多次累积写入,所谓分多次累计写入,就是你先写一条,完了之后呢,我拿到新数据之后呢,我我再怎么样,我再给你改,再给你补充,对吧?那所以说这个修改的过程实际上是比较复杂的啊,这也就是咱们这种表呢,它的这个难点啊所在啊,就是这啊,那后续大家会发现这两张表咱们写起来啊,这个逻辑确实略显复杂。
02:05
啊,略点复的啊,这是这个实时表,呃,咱们大致看一下,那还有什么,还有维度表,那维度表在这儿呢,我们一共有六张维度表啊,那一般情况下啊,咱们这个维度表啊,它的特点就什么维度表数据量不大,且数据相对稳定啊,所以说咱们一般情况下,咱们哎维度表用用什么同步方式啊,全量同步,一般维度表都是全量同步啊呃,那全量同步之后呢,那我们所做的是维度表示就是什么表,就是全量表呗,全量同步的表示就是就是全量表,那增量同步的表就是增量表呗,对不对,那它这个维度表呢,一般情况下就是大多数大数,大多数的维度表呢,都是全量表啊,你看哎全量当然咱们这儿呢有特殊表啊,那这是特殊的维度表,咱们不再多说啊,哎,然后大家会发现咱们这儿呢,一共有五张维度表,是不是还差一张,还差哪张。用户维度啊,用维度表,那我们维度,我们这个维度表咱不考虑特殊情况啊,不考虑特殊情况,那我们所采用的同步方式呢,要么是全量,要么是什么呀,新增级变化啊,一般情况下这个维度表我们使用增量同步的方式,这个相对来说比较少啊,为什么?因为维度表有这样的特点嘛,啊,本身数据量不是很大啊,但是它的数据量呢,它但是它的那个数据变化呢,每日有可能新增,也有可能变化,所以一般情况下就是呃全量,那假如这个数据量比较大,而且也会新增,也会变化,那这时候你用全量时就不合适了呀,不合适咱们就采用,哎新增及变化,那同样,呃,咱们这个在这儿呢,我们假定用户的数量比较多,那我们这儿呢,就没有采用全量,我们采用的是新增级变化,咱新增变化呢,那我们是不是就要又得考虑一个问题了呀,对不对,采用新增级变化,那我们这个数据同步过来之后,要想保证我们数仓里边的数据和咱们关系数据库里边的数据这个变化是不是得是同步的呀,那所以说咱们这就涉及到一个。
03:54
问题什么问题啊,是不是因为你今天打过来的只有新增只有变化对不对,那我需要怎么做,需要将你的新增级变化和咱们昨天的那张表是不是跟那些没一变的数据,或者是那个要修改的数据得干啥呀,是不是做一个整合呀,对不对,这个整合其实也是啊,比较麻烦的啊,那所以说到时候会发现啊,这个拉链表,这就是咱们叫叫拉链表啊,这种表咱们管它叫拉链表后,后边咱们再解释啊,那这张表做起来呢,也是有点麻烦的啊,有点麻烦的啊啊这是关于它啊,然后剩下的其实就比较简单了啊,你像包括这里边这些全量维度啊,什么特殊维度,这都是很简单的啊,都很简单啊,OK,那也是咱们这个整个的DWD层的业务数据呢,咱们一共是六加84张表,里边有难度的表呢,其实有四张有十张呢,都比较简单啊,对不对,比较有难度的是四张啊。
04:47
好行,那大致介绍一下,然后我们接下来就开始啊,从咱们第一张表开始吧,啊,我先把视频录一下啊。
我来说两句