00:00
呃,好了,各位同学,那截止到现在呢,我们这个DWS层呢,咱们就已经看完两张表了,这两张本是大家比较熟悉的啊好,这两张本看完之后,我们看一下我们已经解决了我们后续的哪些派生指标了,是不是把这些就都解决了呀,对不对,OK,在这呢,我们给它标一个一啊来往下拉一下。好这块就都搞定了,搞定之后我们现在呢,继续往下看啊来我们打开这个文档啊,我们还回到最近一日的这个表里来,咱们一个一个往下看啊来看一下我们第二一张表是谁,是交易欲的用户商品力度的,然后呢是退单最近一日汇总表,好又看到表明了,大家琢磨琢磨,你说它里边存的是什么数据,咱们锻了一下这个能量啊,就看到表名,就得反应过来,里边存的是什么样的数据,存的是什么,应该是最近一天里边对吧,每个用户对吧?退每个SKU的次数,件数和金额,是不是应该是这样的一些数据啊,应该是能反应过来的啊好,那这个它对应的派摄,它对应的那个需求应该是它是服务于哪个需求的呀,是不是也是服务于我们前面举那个例子啊,对吧,我们那个例子前面有有有有哪些指标来着,让我们统计什么最近一期30日内什么各品牌各分类啊,这个商品的什么呀,下单次数,呃,下单人数,还有退单次数,退单人数吧,OK,那你说这个东西是不是就是服务于那个退单相关的统计。
01:19
指标了,哎,我们前天没建啊,但是建出来之后就是这样的,好,那现在咱们把这个表呢,给它拿出来一起看一下就行,呃,我在这儿呢,先把它的建表语句拿出来吧,咱们简单的过一下啊好了,那这张表那咱们先看一下表名,呃表名呢叫做DWS交易域用户商品力度,这个呢是退单的最近一日汇总表,OK,好,这个不多说,然后往下走,下边呢就是它的行列分区了,行简单的看一看啊,里边存储的就是最近一天内每个人对吧,退每个商品的,然后呢,后边有次数,有件数,有金额,OK啊好了,那行基本明确了,接下来就是列列,还是分两部分去看维度加度量对吧,那维度呢,我们来一起看一下。
02:01
是不是还是这些啊,里边核心的两个字段,用户ID,商品ID,然后下边是不是也是咱退化进来的一些商品的维度属性啊,对吧?那下边就是我们的统计值了,诶下单的这个退单的次数,退单的件数,还有退单的金额,哎,这个就完事了啊,行列都OK了,那接下来就是分区,它的分区是不是跟所有一地表的分区规划都是一样的对吧?一天一个分区,当天的分区存放当天的明细汇总结果啊好了,这个我就不再重复了,行了,那表结构就到这儿就OK了,那接下来我们再往下看啊,看一下它的数据装载,那它的数据装载是不是也需要区分一个首日和每日对不对,那现在咱们拿出来简单的过一下就行,这个相对也比较简单啊,来CTRLC,其实它跟刚才那个下单相比,唯一的区别是不是就是换一下时表就行了,别的操作基本上都是一致的啊,来先看一下首刃,首刃我们先看紫查询啊,大家看这。这个是不是拿的是退单表对不对,是不是按照日期用户商品是不是进行分组,那我们这个得到的结果是什么呢?是在同一天对吧?同一个用户购买同一个商品,呃,这不是购买,是应该是退吧,对吧?退单同一个商品的次数,件数和金额,诶是这样的啊好了,那这个完成之后,咱们继续往下走,下面呢,是不是还是转一下这个商品的维度对不对,那这完之后把数据使用动态分区写到咱们这张表的多个分区,那就完事了,这是首日,那每日呢,每日是不是就只需要拿一天的数据就OK了,我们来看一下诶首先找到明细表退单明细表15万分区,按照用户加商品分组,那就得到了在这一天里边每个人购买,每个退退单啊,退单每个SKU的次数和建数和金额了,对吧,得到之后我们就同样是去照一下这个商品维度,照完之后只需要把结果写到十五二分居那就OK了,这就是它的每日状态,也比较简单啊,行了,完成之后那我把视频停一下。
03:48
好了各位,那现在我们继续去熟悉咱DWS的表,咱现在已经熟悉了三张了啊,然后呢,还有20张,然后咱继续往下走吧,呃,然后呢,我们刚才熟悉是哪张,是交易用户商品力度,然后是退单的一张表,对吧?呃,刚才统一周期是最近一天的,那有没有与之对应的最近N天的呢?那有没有这个其实还是取决于什么呢?取决于咱们就是后边需求所依赖的这些派生指标,对吧?来,那咱们现在找一找看有没有啊呃,先找到我们刚刚那个E地的这个对应的排产指标,呃,业务过程是退单对吧?那完之后呢,这个力度呢,是用户商品力度,应该就是这样吧,对吧?然后大家来看一下有一天的是不是也有N天的,所以说理论上呢,我们应该有一个与之相对应的最近N日的回总量,所以咱接下来呢,还是来到最近N日的这一节,我们来看一下第二张表,那第二张表呢,就是交易用户商品力度退单,最近按日回总表,这是就是跟他相对的那个N天的表啊,对吧,那现在呢,咱们把这个表拿出来,咱们一起过一下啊,这回呢,我就直接把它的。
04:49
数据装载语句,还有建表语句都一块拿出来,咱们简单的看看一下就完事了啊来吧,那咱现在呢,先分析分析咱们这个具体的表结构,呃,先看表名吧,这个表名来看一眼,这里边是什么东西,呃,交易用户商品力度没问题吧,然后是退单,然后那是ND啊,也是对接N的,明白这个大家应该是能够看明白的啊行了,那接下来我们来分析分析它的表结构行列分区应该是什么样的啊来吧,咱们先明确明确它的每行所指代的是什么,这个每行它存储的应该是这样的一个东西啊,应该是在最近N天里边,对吧,每个人对不对,去退每个SKU的是不是次数,件数和金额呀,对吧?当然这个N天呢,我们俩一个是七,一个是30啊,这一点大家理解一下好了,行,基本上明确了啊,接下来就是列了列还是这两部分,分别是维度信息,还有这个统计值,维度信息呢,包括用户的,包括商品的,呃,然后下边呢,就是这个统计值的,统计值呢,我们有七天的统计值,有30的统计值啊,这就是它的一。
05:49
个列的一个分布啊,然后下面就是它的分区规划,这个分区规划呢,我以后我就不再一个一个表的去强调了啊,因为咱们大家都知道,所有的一地的表的分区规划是不是都是一样的,所有的ND表的分区划是不是也都是一样的呀,对吧?那所以这个ND表跟前面那个ND表是一样的,我就不再重复了啊OK,后边我也都不再重复这个分区规划了,那后边呢,我们就重点的去看一看它的行和列就OK了啊行,接下来继续往下走,表结构就算是完事了,接下来就是它的数据状态了,那大家可以想一下,你说他的数据状载应该怎么做呀,就是咱们现在不去看那个circle,应该也知道怎么做吧,应该怎么做,咱们一起说一下,说一下就当相当于写了哈,啊怎么做呀,这个东西。
06:28
首先是不是得找到与之相对的那个1D的表对不对?OK,那怎么办呢?是不是得拿最近30个分区过滤一下对不对?拿到之后是不是得做分组聚合呀,对吧?好,按谁分组呢?用户加商品阶级分组对吧?当然由于我们这儿呢,需要拿到这些维度属性,所以说我们是不是得按照这一大串的字段分组对吧?那分完组之后呢,直接求和,那得到的是不是就是这几个值啊萨if有条件的求和,是不是得到的就是这几个值啊对吧?最终再把数据写在这张表十次二分区,那就完事了,对吧?这是不是就是咱们这个最终的四和语句,哎,我们就不再一点点去看了,就是这么去写相对比较简单,行了,完成之后视频我给他停一下。
我来说两句