温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
啊,上一节我们已经完成了用户主题宽表了,对吧?那我们之前说过啊,这个用户主题呢,它实际上是比较典型的一个,那那其实我们后边的商品主题,优惠券主题,活动主题,地区主题啊,那他们的表结构以及数据装载的思路呢,都和这个用户主题非常相似啊,那唯独这个访客主题呢,它略显特殊啊,那所以说我们接下来呢,来先来看一下这个访客主题啊,啊那老规矩呢,我们还是先来分析一下这张表的表结构啊,那首先是行对吧?啊那我们要明确一下啊,这张表当中每行数据是什么。啊,实际上呢,它的每行数据指的是一个访客在某一天的访问统计啊,那当然呢,我们这儿的一个访客是由一个设备ID去标识的,对吧?啊,这要注意一下啊,OK,那接下来呢,我们再来看一下列,哎,也就是它的字段对吧?那这里边有啥我们来看啊,那第一个midd设备I对吧?啊,那刚才说了,这个是我们一个客唯一标对吧?OK,那往下,那下面的是brand设备model备is new啊是否是首次访问,OK,下一个啊,China是不是就是渠道啊对吧?那OS啊,在这儿呢,指的是操作系统啊,下一个code。
01:29
没错吧?啊,那由于在DWD层啊,我们把这些维度信息是不是都退化到了日志表当中啊,没错吧,我们没有给他们去创建一个设备维度表,所以说在DWS的这个宽表当中啊,我们也需要保留这些维度字段啊,OK,好,那我们再往下看啊,那再往下呢,就是我们这张表当中的两个统计值了,那我们来看一下分别是啥啊,首先第一个VC count,这个是不是访问次数啊,对吧?那实际上这个访问次数呢,与用户主题当中的那个登录次数是相对应的啊,只不过呢,登录次数我们只统计注册用户啊,对吧?而这个访问次数呢?诶,我们不关注它是否注册啊,只要它访问我们的应用,那OK,我们就需要把它统计在内啊,这是count啊,OK,那现在我们再往下走,下边的是配置states,是不是页面访问统计啊。
02:21
大家来注意观察一下啊,那这个字段的类型是不是也是结构体数组啊,对吧?啊,那为什么它也要设置为一个结构体数组呢?来咱咱们分析一下啊,那首先我们需要明确啊,那这个所谓的页面访问统计,我们统计的到底是什么内容呢?实际上啊,就是一个访客在一天当中浏览页面的情况,那由于一个访客在一天里边呢,他是不是可能会浏览多个页面啊,对吧?没错吧,而且每个页面呢,都有多个统计值,包括诶浏览的次数,包括浏览的时长啊,那所以说呢,在这儿我们需要用一个数组去保存每个页面啊,那每个页面呢,我们需要用一个结构体去保存页面的多个统计值啊,那所以最终呢,我们就定下来了,在这儿呢,我们需要用到一个结构体数组,好,那这就是我们的两个统计值啊,然后大家可能会发现啊,这张表它的统计值相对来说要少一些。
03:15
没错吧,那我们用户主题当中呢,有那么多的统计值,而这儿呢,是不是只有两个呀?诶这是为啥呀?啊,那我们来分析一下啊,大家注意观察啊,那这张表当中呢,我们实际上只有一些基础的访问次数和页面浏览统计,对吧?啊那为什么这里边没有加购车的统计,没有下单统计,没有支付的统计呢?诶,这是为啥呀?啊,其实道理很简单啊,由于我们访客啊,它的权限相对来说比较低对吧?那访客呢,是没有权限去下单去支付啊,去加购物车去收藏商品的,没错吧?那你要想做这这些业务操作,我们是必须得是呃注册并且是登录状态才可以啊,那所以说在这儿呢,我们就没有这些相关的统计了啊,而只有一些简单的访问统计以及页面浏览统计,OK,那这一点呢,大家理解一下就可以了啊好了,那这张表的字段我们就说完了啊,那最后我们再来看一下这张表的分区规划啊,那它的分区规划相对来说也比较简单啊,那就是按天分区,每天一个分区啊,那每天的分区当中存储的就是当天的活跃设备的汇总行为,OK,这就是他的分区规划啊,好了,那这张表的表结构我们就说完了。
我来说两句