00:00
好,那接下来呢,我们需要逐个分析一下每张表的同步策略啊呃,那我们分析的主要依据应该是啥呀?啊,其实刚才也提到了对吧,其实就是每张表的数据自身的特点对吧?啊,那我们拿到一张表之后呢,我们需要先看一下这张表数据量大不大对吧?然后再看一下呢,这个表的数据啊,它是只会新增啊,还是既会新增又会变化对吧?然后呢,我们再根据这些特点去选择合适的同步策略啊,那在这儿呢,我们就不再从头分析了啊,文档当中呢,已经给出了最终的结果啊,那现在呢,我们就看着这个结果去分析一下啊,那首先呢,这个就是三大同步策略对吧?然后再加上后边一个特殊情况,然后下边呢,分别是适合采用每种同步策略的表啊好,那现在我们打开这个PPT一起来看一下啊。首先我们看一下啊,适合全量同步的表都有谁啊,那适合全量同步的是不是主要是那些数据量比较小,并且这个数据呢,它既有可能新增也有可能会发生变化的表啊,没错吧?啊来我们看一下具体都有谁?首先我们看第一个啊,Base dic啊,这是不是就是编码字典表对吧?那这张表当中存储的内容是什么,大家还记得吗?
01:10
啊,是不是主要是对各个编码值的解释啊,对吧?啊,里边就是一个一个的KV建制,对啊,那这张表的数据量呢,不会很大,并且呢,既有可能新增,也有可能会发生变化,那所以说呢,这张表就很适合采用全量同步啊,那接下来我们继续往下看,下一个呢,是base trademark品牌表,那这张表当中存储的是不是就是商品的品牌信息啊,对吧?啊,那同理,这张表的数据量呢,也不会很大,并且呢,它的数据也是既可能新增又可能会发生变化,那所以说呢,也适合采用全量同步啊好,我们再继续往下看,那再往下呢,是三级分类表,对吧?Base category321啊,那这三张表当中存储内容是不是分别就是一、二三级分类信息啊,对不对?那显然这个表的数据量也不会很大,并且呢,数据呢也是既可能新增又有可能诶会发生变化,那所以说呢,也是适合采用全量同步啊OK,我们再往下走,下面呢是SKU音和s puu音啊,同样的道理,数据量不大,然后呢,既可能新增。
02:11
不可能变化对吧?所以说采用全量同步啊好,我们再往下走,下边两张表呢,诶,分别是活动信息表和活动规则表啊,同样的道理,数据量不是特别大,并且呢,既有可能新增又有可能变化,那所以说呢,采用全量同步啊OK,我们再往下,再往下呢,是两张特殊的表啊,这两张特殊的表我们一会儿再说,我们先往下看啊,下边一个呢,是Co胖in for啊这是啥优惠券信息表对吧?啊,那这张表当中存储的内容是不是就是各个优惠券的信息啊,没错吧,那它的数据量呢,也不会很大啊,而且呢,有可能新增,有可能变化,那所以说呢,也是采用全量同步啊好,我们再往下走,那下边两张表是啥呀?啊,是不是SKU平台属性表和SKU销售属性表啊,没错吧,那这两张表当中存储内容分别就是呃,每个SKU的每个平台属性和每个销售属性,那同理,这两张表的数据量呢,也不会很大啊,而且呢,有可能新增,有可能变化,所以说呢,采用全量也是没有问题的。
03:11
啊好,那接下来呢,我们再来看一下这两张特殊的表啊,一个是fo表对吧,一个是fo收藏表,那这两张表为什么特殊呢?啊好,我们先来分析下这两张表的特点啊来,我们先看第一张表card info,那这张表当中存储的内容是什么呀?是不是就是用户加的记录,那这张表呢,是不是就是户收藏商品的记录,那你说每天是不是会有很多用户把不同的商品加到自己的购物车里,对吧?那同理每天也会有很多用户啊,去收藏不同的商品,那所以说理论上啊,这两张表每天都会新增大量的数据。啊,没错吧,而且这个数据呢,它既可能新增也可能会发生变化啊,那所以理论上这两张表是不适合采用全量同步的,对吧?它应该采用哪种同步方式啊,是不是适合采用新增级变化同步啊,没错吧?啊那所以说呢,这两张表呢,它是有点特殊的啊,那为什么我们要对这两张表采用全量同步呢?啊,这个呢,实际上是和我们后期在数仓当中要进行的维度建模是相关的啊,但是维度建模呢,咱们现在大家还很陌生对吧?所以现在呢,诶,咱们知道这两张表是特殊的就可以了啊那具体的原因呢?诶在后边讲到维度建模的时候呢,还会再跟大家说的啊好,那我们继续往下看啊,那下边呢,我们看一下增量同步啊,那适合增量同步的表应该都是什么样的呀?
04:37
啊,是不是应该是那些数据量比较大,并且这个数据呢,只会新增不会变化的表啊没错吧?啊,那我们来看一下具体都有谁。啊,首先我们先看第一个,那第一个呢是order refund,这是不是退单表啊,对吧?大家注意这也是一个特殊情况啊,这个特殊情况呢,我们一会儿再说明啊,咱们先往下看啊,来我们看第二张表,第二张表呢是older status s logg订单状态流水表,大家还记得这张表当中存储的内容是啥吗?哎,这张表里边啊,会存储所有订单的所有状态啊,只要有任意一个订单,它的状态发生变化了,那是不是就会往这张表里写入一行数据啊?
05:19
对吧?然后大家一定要注意一下啊,就是这张表的数据呢,是只会新增不会变化的啊,那我们每天呢,都会有很多的订单,对吧?而且这么多的订单,它的状态是不是都会发生变化呀,对吧?那所以说这张表的数据量呢,肯定是比较大的啊,那再一个呢,诶,它只会新增不会变化,那所以说它是适合采用增量同步的啊OK,那我们继续往下走啊,那下一个呢,是order detail订单详情表啊,那这张表当中存储的内容是啥?大家还记得吗?啊,是不是就是每个订单的具体的商品项啊,对吧?那所以说呢,这张表的数据量肯定也是比较大的啊,它要比older info这张表的数据量更大对吧?那再一个呢,这张表的数据呢,它也是只会新增不会发生变化的啊,那所以说呢,它也是适合采用增量同步的啊好,我们继续往下走啊,那下边两张表咱们一起看啊好,那我们继续往下走啊,那下边两张表呢,咱一起看,这两张表分别是older detail activity和order detail对吧?啊,一个是订单细活动关联表啊,一个呢是订单明细优惠券关联表,那这两张表当中存储的内容是不是就分别是订单明细参与活动的记录和订单明细使用优惠券的记录啊?
06:29
对吧?哎,那这两张表的数据量呢,也会比较大啊啊而且呢,它只会新增不会变化啊,那所以说呢,它也是适合采用增量同步的啊好,那我们继续看下一个啊,那下一个呢,是common INF评价表,对吧?那这张表当中存储内容是啥?是不是就是我们每个用户在订单结束的时候对这个订单的评价记录啊,对吧?那前面我们分析过啊,我们说这个用户的评价信息呢,一般情况下是不是不能修改的呀,对吧?那所以说这张表的特点呢,也是数据量比较大,那再一个呢,数据是只会新增不会变化,那所以说呢,它也是适合采用增量同步的,好,那接下来呢,我们再来看一下第一个这个特殊表啊,退单表啊,那它为什么特殊呢?啊,首先我们先来分析一下退单这张表的特点啊,那首先啊,退单这张表当中存储的内容是不是应该是退单记录,那大家在平常的生活当中应该有过这种退单的记录吧。
07:23
啊,那大家想想啊,那我们一个退单从我们发起到最终完成,中间是不是理论上是会经历一系列的这个处理过程的呀,对吧?那也就是说这个订单记录呢,它一般情况下是会怎样呢?是不是会发生变化呀,那会发生变化是不是就不应该采用增量同步对吧?那他应该采用哪种同步方式啊,是不是应该采用新增级变化,那咱这为什么采用增量同步呢?这个需要给大家解释一下啊,这块咱之所以采用增量同步啊,是因为我们模拟生成的数据啊,啊对这个退单业务进行了简化啊,那我们生成的所有的退单记录呢,都不会发生变化,那所以说呢,在这儿我们就采用了增量同步啊,但是实际情况下呢,那实际情况下呢,这个退单表当的数据呢,是肯定会发生变化的啊,会发生变化,那我们就应该采用新增及变化同步啊,这个呢大家要注意一下啊好,那我们继续往下看啊,那下面呢是新增及变化同步啊,那适合新增变化同步的都是什么样的表啊。
08:21
是不是应该是那些数据量比较大啊,并且呢,这个数据它既可能新增又可能发生变化的表啊,好,那我们来看一下具体都有谁啊,来那我们逐看一下,那分别是Co use优惠券领用表,Fo用户表,Order info订单表,Payment info支付表,Fund payment退款表啊那这几张表呢,都有一个共同的特点啊,就是数据量比较大,那再一个呢,它既可能新增又可能变化,那所以说呢,他们几个都采用新增及变化同步啊好,那最后呢,我们再来看一下这个特殊情况啊,那特殊情况的表都有谁呢?我们来看一下。诶,其实主要就是这个省份表和地区表啊,那省份表里边存储的是不是就是我们每个省份的信息对吧?那地区表呢,那当然就是每个地区的信息了,这个地区呢,指的是东北地区,华北地区啊等等等等,那这两张表的数据呢,大概率是不会发生变化的,对不对?所以在这儿呢,我们没有必要每天都去同步一遍,对吧?所以在这儿呢,我们特殊处理一下,诶只同步一次,然后在数仓里边呢,也是只保留一份,好,那这就是我们每张表的同步策略。
我来说两句