00:00
好好,各位同学,那现在咱们已经掌握了这个维度建模的基本理论了,那现在呢,我们再回过头来看一看,就是我们建模到底是如何影响到业务表的同步策略的选择的来,我现在还是把这些表都给它放开,让大家注意观察观察,你看看采用全量同步的表有什么特点,采用增量同步的表有什么特点,自己看一看。看一看,你看全量表都有什样的特点,增量秒都有什么样的特点,自己总结总结这个规律,就是结合咱们维度建模去考虑啊,懂不懂什么样的表我可能会采用全量,什么样的表我可能会采用增量。哎,能不能看明白,哎,因为有同学我我发现有同学可能已经说对了啊,你会发现啊,就是我们采用全量同步的表,实际上呢,将来都会跟谁相关呀,对,都跟跟维度表相关,OK,那采用增量同步的表呢,是不是大部分都跟将来咱们的这个市实表是相关的呀,对吧,这个怎么能看出来,你看啊,你看你看这个全量全量说什么活动信息,活动规则什么,呃分级分类信息,什么省份地区,这不看一看是不是就是跟跟这个各种各样的这个活动维度啊,商品维度啊和地区维度相关的表,对吧?OK,好,那现来往看往下走,我们看右边,右边是不是就是采用增量表啊对吧,里边有什么card INF for come INF for use fair info order等等等,这些都是对应的一个一个的业务过程嘛,对吧,那他们是不是理论上应该是跟事实表相关的呀,对吧?哎,其实这里边确实是有这样的一个关系的啊,OK,那什么意思呢?OK,那在这儿呢,需要给大家明确一下啊,就是首先那我们将来在DW。
01:42
就呃,就是将来在我们那个数仓里边啊,在书仓里边,咱们去建的维度表,咱们去见的事实表,甭管是维度还是事实,那这些表的数据大家说都是来自于哪儿的,肯定都是来自于我们这个业务系统的,对吧?没问题吧,OK啊好,那完之后这里边就有一个大致这样的一个规律,什么规律呢?就是将来对吧?OK,呃,我这个事时表所需要用到的那些表,通常都采用增量同步啊,是际啊,也就是说将来这些表的数据,我是不是最终都会装网一个一个的事实表,对吧?啊,那完之后维度表需要用到的表通常都采用什么呀,都采用这个全量同步,哎,但是我这儿说的是通常,对吧,我并不是特别的绝对,对不对,为什么?因为这里边它是有特殊情况的,你看这里边哪有特殊情况啊,那首先我这儿有一个标红的特殊情况在哪?首先一个就是抗尔零否,那还有一个呢,也是抗零后,对吧?你看它是不是既做了增量又做了全量,对吧?这个情况我们应该怎么理解呢?那。
02:42
还有一个特殊的情况在哪?其实这个没标红,但是也有点特殊,谁呢?就是它有点阴风,有点阴风,这个理论上来说,这应该将来是做一个什么东西,应该做一个维度吧,是不应该是用户维度,对吧?理论上用维度我是不是应该用全量啊,对吧?但是他这是不是也是做的增量啊,对吧?那也就是说我刚才说的,哎,这个全量对应维度,增量对应事实,这个不完全是,哎正确的,那不完全是正确的,哎,它是,呃在就是大部分情况下是对的啊,但是有一些特殊情况,那这个特殊情况到底怎么回事,我逐个的给大家解释一下啊,那实际上在这儿呢?呃,我们得这样去说,得这样去说啊,就是我们比如说事实表对吧,那事实表我们是不是分为好几类啊,对吧,哪几类来着,是不是分为事物实值表,还有哪种周期快照表对吧?还有哪种累积快照表,是不是有这样三种对吧?那咱们得这么说啊,就是所有的事物事实表我通常采用哪种呢?增量同步事物时表采用。
03:42
量同步,OK,那我还有一种叫做周期快照时表对吧?周期快照时表你说它采用哪种同步比较合适,应该全量了,什么叫周期快照来着,就就是每天做一个全量快照,每天做一个全量快照对吧?所以它采用全量同步是不是比较合适对吧?OK,那我们再去往下进行,那还有一种是什么来着?累积快照表对吧?累积快照表它采用哪种同步比较合适呢?它通常也是增量,哎,是这样的啊,那也就是说准确的说法应该是这么去说啊,OK,那咱们绝大多数的事实表是不都是事物事实表啊,没问题吧,那所以说我们,呃,绝大多数的就或者也可以说呢,就是说我们绝大多数时表呢,我们都采用增量同步,但是如果你将来需要去做一个周期快照表,好,那这时候呢,你这个周期快照表所对应的那个业务表是不是就得采用全量存播对吧?那这时候其实我们就可以解决这样的一个特殊情况的一个问题了,他这儿为什么特殊呢?是因为我们将来。
04:42
哎,对于加购物车这个表而言呢,我们既要做一个事物实时表,又要做一个什么呢?周期型快照实时表啊,是这样的啊,就是将来我们会有一个类似的存量型指标,所以我们会做一个购物车的每日全量快照,对吧?所以在这儿呢,我们就既励他做了一个诶增量同步,又做了一个全量总估,诶首先这个特殊情况大家现在应该就已经想明白了,对吧?好,那接下来呢,我们再来看一下另外一个特殊情况,那就是哪呢?就是它,诶关于用户这个表啊,用户这个表咱们都知道它是用来做维度表的,对吧?我们刚才说了,我们说所有的维度都采用全量,但这个其实也是不准确的,准确的应该怎么说呢?应该这么说,维度你要给他分类,是不是也能分为两类,哪两类来着,一类是每日全量快照对吧,还有一类是什么来着,是拉链表对吧?好,那每日全量快照表大家说我应该采用哪种同步方式,那是不是肯定是全量同步对不对,那绝大多数的维度表是不是都采用这个,呃,都都都是那种,就是每日全量快照的对吧?那所以说绝大多数维度。
05:42
图呢,我们对应的表都是全量通。但是拉链表呢,拉链表它需要做全量同步,它不需要,它是不是只需要做增量同步就够了,对不对?那所以说如果你某张维度表你做的是拉链表,那OK,那它的同步策略那就是啥呢?就是增量,而我们将来的用户维度表,我们做的恰好就是一个拉链表,所以在这儿呢,它会做一个增量同步,诶是这样的啊,那所以现在呢,大家就应该就已经知道了,我们到底如何去选择每张表的同步策略了啊,这一点咱们要给他搞清楚,最终总结一下啊,就是说绝大多数的事实表采用增量,那绝大多数的维度表采用全量啊这样的,当然这是一个泛泛的说法,你要是具体的去说的话,你这得怎么说呢?是不是得分类去说明这个问题,对吧?事时表当中,事物实时表采用增量对吧?周期快照采用全量,那累计快照采用增量对吧?那维度表当中呢,哎,这个每日全量快照表我采用全量,那拉链表呢,我采用增量,这是不是才是最准确最完整的一个说法啊?
06:45
对吧,哎,这一点咱们要给他搞清楚好了,那怎样去选择各表同步策略,我觉得大家现在应该就已经清楚了啊,好了,这个完成之后,我把视频停一下啊。
我来说两句