00:00
好,那下面的话我们来到这个2.5,那这回呢,我们万事俱备啊,只欠东风了,什么叫万事俱备呢?我们已经把这个买准备好了,里面的数据也有了,然后s school也准备好了,ADS也安装完了,那现在的话就是要用这个s school把MY的数据导入到ADS,也要开始写具体的脚本,那写脚本之前呢,还要判断一个什么呢,比如说我们这里面有这么多张表,那我们再来重新回顾一下哪些表怎么去导哈。来把这个打开。看一下表的同步策略啊,首先呢是全量,那这种的特点呢,就是数据量小,而且呢一种一般的就是那种编码啊,什么编码呢,这个幺幺啊,什么1001啊,这个商品的一级分类,二级分类,三级分类啊,这些呢都属于码表,还有那什么那个省市县啊,类似那些哈,这都属于码表,那这种呢,往往数据量小,还是码表全量。啊,还有一些特殊,呃,特殊的特殊的就是时间维度和这个地域维度哈。
01:01
之后呢,是数据量比较大,但是不变化,一定要是强调它不变化,而且呢数据量比较大,如果数据量比较小还不变化,那直接就就全量了哈。那这时候数据量大且还经常变化,那这种像用户啊订单,那往往呢,我们就直接就要新增和变化啊好,那首先那第一个呢,这里面全量呢,就是这个编码质检表。品牌的。还有呢,商品的三级分类,二级分类,一级分类以及优惠规则表啊,这规则都很少啊,然后活动活动表。活动参与的商品表。然后这个加入购物车,这呢是属于一个特殊情况啊,特殊一个处理啊,正常的这里面有新增和变化是可以放在这里面的,只不过呢,这里面呃,如果放在这个新增和变化呢,我们会少统计很多很多指标啊,所以说这里面我们就全量啊,这些全量处理啊。还有一个商品收藏啊,它也属于一个特殊处理,我们认为它数据量不是特别大啊,直接导群量也还好,因为想想反正我是不怎么收藏这个商品哈,我不知道大家这个买东西的时候愿不愿意去收藏,嗯,我收藏东西非常非常少,所以说这里面数据量呢,也不会太大啊,直接收藏也OK。
02:14
再之后呢,是优惠券表啊,这个呢也不是特别大。之后SPU商品表几万条啊几万条那呢,SPU的品类表,那它比商品商品表还会少哈,才会少,那特殊呢,这里面我们只放了这个省份和地区,因为时间表呢,我没往这里面去放啊,我们暂时没用,我们会在这个,呃,未来数仓里面DW地省有第二层的时候,直接通过这个文件的方式加载进去啊,不通过这种导航不着急,那再往后呢,是新增,新增这块像推单啊,推单的里面只有创建时间,也就说它不会发生变化。且数据量呢,相对来说比较大一些,那我可以把它直接导新增,如果小电商的话直接全量啊,小电商退单那就直接全量就完了。呃,订单这个状态表,那这里面就是订单发生一个变状态的一个变化,那我就增加一条,它属于增加一条,并不是修改,那不修改的话那就没问题,那我直接可以导这个新增啊就可以哈。
03:11
再之后呢,是支付流水,它的特点呢,也是一旦产生呢就不变化,OK往下呢是订单详情啊订单详情,那订单详情呢,也是一旦产生就无变化,它只有创建时间。呃,活动与订单关联表,那其实呢,这里面也算是一个呃,小小订单啊,类似一种订单状态啊,它只要产生它也是不变化的哈啊再之后呢,是这个商品评价表啊,属于对这个商品评价,我们这里限制死了,只允许这个评价完之后再追加啊,不允许再次后面的一个重新编辑哈。招呢是新增和变化,那这里面用到的是优惠券领用表,是因为后面我们要对这个优惠券呢,进行一个啊特殊的处理啊,所以说我们用到了这个新增和变化啊,倒过来那另一个呢,是用户表,他的用户呢,肯定是有一定的变化的,对吧。
04:03
嗯,而且呢,它是一个缓慢变化的,我们后面对它呢,会做一个叫拉链表。电商里面这个比较常用的一个拉链表,主要解决的这种缓慢变化为的,嗯,再往下呢是订单表,订单表呢,我们这里面是要着重分析的一个一张表哈,那这里面数据量呢比较大,那我们就导入它的新增和变化。
我来说两句