00:00
好,那接下来我们看DWT层的第一张表啊,那和DWS层一样啊,在这儿我们也从用户主题开始啊,因为用户主题呢,相比访客主题来说要更典型一些啊,那OK,那接下来我们就来看一下这张表的表结构,那表结构呢,我们还是分为行列、分区三个方面的内容啊,那我们现在先来看行啊,那DWT层的用户主题表每行数据应该是什么内容呢?OK的每行数据是每个用户的累积汇总行为啊,当然这个累积汇总行为里边呢,具体会包括最近一天的,最近七天的,最近30天的,以及从开始至今的累积汇总。OK,那这个呢,是我们的每行数据所指代的内容啊好,那接下来我们再来看列啊,那所谓列呢,也就是字段啊,对吧?那实际上DWT层的字段呀,与DWS层是有关系的啊,那具体有什么关系呢?那接下来我从两个方面呢给大家阐述一下啊,那这两个方面呢,分别是字段的内容和字段的数量啊,那现在我们先看第一个方面啊,字段内容啊,那从字段内容上来看呢,实际上DWT与DWS层的字段啊,是上下对应的啊,那这个怎么理解呢?哎,我给大家解释一下啊,那假如说DWS层的用户主题表当中有几个与订单相关的统计值对吧?那相应的在DWT层的用户主题表当中也会有几个与订单相关的统计值。
01:27
那比如说DW层会有每个用户每一天的下单次数,对吧,那相应的在DWT层就会有每个用户的累积下单次数,OK,他们是上下对应的啊,那我们再来看第二个方面啊,那从字段数量上来看呢,DWT层字段的数量是DWS层字段数量的若干倍,诶那这个又怎么理解呢?诶我也给大家解释一下啊,那你说同一个内容DWS层是不是只需要统计一天的汇总值?没错吧啊,那而DWT层呢,哎,则需要统计最近一天哎,最近七天,最近30哎,以及从开始至今的累计值,那所以一般情况下呢,DWT层字段的数量,诶是DWS层的若干倍啊好,那这个呢,就是DWS层与DWT层这个字段的关系,好那接下来我们来看一下DWT层用户主题表的具体字段,由于这张表字段比较多,那所以说我们把它的建表语句给它粘出来啊,一起来看一下。
02:26
来,我们复制。来放到data group当中啊来R位,好,那现在我们从第一个字段开始看起啊,来我们看第一个,那第一个呢,就是user ID很简单,是不是就是用户ID啊,对吧?这个没么可说的啊,那接下来我往下看啊,大家看这部分内容啊,那实际上这部分内容呢,是不是都是与登录相关的统计啊,对吧?那同样的在DWS层咱也有与登录相关的统计,对吧?那那只不过呢,DWS层我们只有每天的聚合值啊,而DWT层呢,在这儿有最近一日的聚合值,最近七日的聚合值,最近30的聚合值,以及从开始至今的聚合值,OK,那这就是DWT与DWS层字段的一个主要区别,对吧?啊OK,那接下来我们再来看一下这个字段的具体内容啊,那虽然这个字段啊,看起来比较多,但其实我们统计的内容并不多啊,一共就两个啊,那当然是不是都是登陆次数和登录天数啊,对吧?啊,那只不过呢,他们的时间范围是不一样的,没错,这是最近七天的登录次数,登录天数,那这个呢,是最近30天的登录次数,登录天数,OK,除了。
03:29
这几个字段之外呢,哎,在这儿我们还增设了两个字段,那这俩市场看一下啊,分别是首次活跃日期啊,以及末次活跃日期,但是际上这两个字段呢,很好理解对吧?但这两个字段呢的用处呢是非常大的啊,那后续我们在做用户相关的统计的时候,比如说哎,统计新增,统计活跃停统计留存等等等等,我们都会用到这样的两个字段,OK,那这就是与登录相关的几个字段,那我们继续往下看啊,再往下呢,这些都是与订单相关的统计啊,那同样呢,在这儿也会有最近一日的聚合值啊,然后呢,最近七日的聚合值,最近三十日的聚合值,那下边呢,还会有一个从开始至今的累积的聚合值啊,OK,那虽然这个看起来字段比较多啊,那当然内容呢,其实也不是特别的多啊,因为最近一日,最近七日,最近三日他们统计的内容是不是都是一样的呀,对吧,只不过就是时间范围是不一样的啊,所以在这儿呢,我们重点看一个就可以来我们以最近七日的为例,一起来看一下啊。
04:29
那其实这些具体的字段内容啊,咱们也不陌生,因为它与DWS层是不是也是对应的呀,对吧?那咱们一个一个来看一下啊,当然第一个啊,这个是啥呀?这个是最近七日的下单次数,Order last 7d count啊最近七日下单次数应该好理解对吧?当然了,这我们求的具体内容应该是啥?是每一个用户最近七日的下单次数,对吧?好,接下来往下走啊。这是啥呀?这是最近七日下单参与活动次数啊,那再往下,这是最近七日下单参与活动减免的金额,没错吧?那这个呢,是最近七日下单用券次数啊,那这个呢,是最近七日下单用优惠券减免的金额,再往下呢,是最近七日的原始下单金额,那最后一个呢,是最近七日的最终下单金额啊OK,那除了这些最近一日,最近七日,最近三日的聚合值之外啊,那与订单相关的字段呢,我们还增设了两个啊,那分别是首次下单时间和末次下单时间,OK,那这些就是与订单相关的字段,好,那我们再继续往下看啊来,往下走,那下边呢,都是与支付相关的字段,对吧?那大家一起来看一下啊,那这里边呢,同样会有最近一期三十日以及累积的聚合值,对吧,那具体内容是啥呀?那分别就是支付次数和支付金额,那OK,那当然呢,除了这几个最近N天的聚合值,那咱是不是也有两个时间啊,对吧?一个是首次支。
05:53
付时间,一个是末次支付时间,OK,那与支付相关的字段就是这些,那咱接着往下看啊,那再往下呢,是与哎退单相关的字段,来咱们一起看一下,那这里边儿都有啥呀,是不是有也是最近一七三十还有累计值啊对吧?那现在我们也是挑一个来看一下就行了啊那具体的内容有啥?哎,我们以最近七日的为例啊,是不是有最近七日的退单次数,最近七日的退单件数,最近七日的退单金额呀,对吧?其实就是次数、件数和金额啊OK,我们继续往下看啊,再往下呢,是与退款相关的统计啊,那同样呢,也是分最近一期三十日和累计值啊对吧?那具体内容是啥呀?呃,分别就是退款的次数,退款的件数以及退款的金额。
06:39
啊好,那我们继续往下看,那再往下呢,这是与这个加购物车相关的字段,对吧?那分别有啥?分别有最近一日的加购次数,最近七日加构次数,最近三日的加构次数和累积加购次数啊OK,那继续往下走,那下边呢,是与收藏相关的字段啊,那分别就是最近一期三十日和累积的收藏次数啊OK,那我们再往下,下边呢,是与优惠券领用相关的统计啊,那这里边分别有啥呢?我们一起来看一下啊,这里边儿呢,会有最近一日的领券次数啊,以及用券次数大会有啥,还有最近七日的领券次数和用券次数啊,以及最近三十日的以和这个累积的,那OK,那这就是与优惠券领用相关的字段啊。
07:24
好,那我们再往下走,那再往下呢,就是我们最后的几个字段了啊,最后这几个字段呢,是不是都是与评价相关的字段呀?没错吧,在这儿同样会分为最近N天啊,以及从开始至今的一个累积值啊,那具体内容是啥呀?其实很简单,是不是就是好评数,中评数,差评数啊,对吧?以及默认评价数。那这些呢,就是DWT层的用户主题表的全部字段,好,那字段说完了之后呢,我们再来看一下它的分区规划啊,那实际上这张表的分区规划是这样的啊,它也是按天分区啊,然后呢,每天一个分区啊,每天一个分区啊,那每天的分区当中存储的是什么内容呢?啊,每天的分区里边存储的是啊,截止到当天的全量的用户的累积行为啊,注意是全量的啊,全量的,然后呢,大家再来跟我思考一个问题啊,思考一个什么问题啊,就是我们这些最近N天的统计值啊,它的时效性是比较强的。
08:20
啊,这个怎么理解啊,想想啊,那我们最近一天,最近七天,最近30天的这些统计值是不是只在当天是有意义的呀?那为啥呀?啊,因为你过两天之后是不是又会有新的最近一天,最近七天,最近30天的统计值啊,没错吧,那所以这张表呢,我们没有必要保留全部的历史数据啊,那所以这张表我们后期数据装载的时候呢,会定期清理之前的分区啊,那最终这张表呢,我们实际上只会保留最新的两个分区啊OK,那至于如何去清理前面的分区,那这个等我们后续讲数据装载的时候,咱们再详细的说啊好了,那这就是这张表的分区规划,那最后我们再来看一下这张表的数据存储格式啊,那实际上就是整个DWT层的数据存储格式啊,因为他们的存储格式是不是都一样啊,对吧?啊,那现在我们打开这个建表语句看一下最后边啊,那这是不是同样是start as park啊对吧?列式存储加上哎拉德罗压缩啊OK,那这就是它的存储格式啊好,那到现在为止咱们DWT层的用户主题表的表结,哎,我们就。
09:21
说完了。
我来说两句