温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
好,那我们回过头来再来看访客主题啊,那同样呢,还是先看它的表示结构啊,那也分为行列和分区,对吧?我们先看行啊,那访客主题表当中的每行数据指代的应该是什么呢?那他的每行数据啊,指代的是一个访客的累积行为啊,注意是一个访客啊,那一个访客是由什么标识的呀?哎,咱这儿是不是用设备ID去标识一个访客呀?哎,这个大家注意一下,OK,那我们再来看列啊,那列呢,也就是字段对不对?我们先来看第一个字段啊,第一个字段呢是m midd设备ID,那这个呢,就是一个访客的维一标识啊OK,那接下来我们继续往下看啊,那像下边这些字段啊,从brand开始到这个version code,这都是啥?这是不是都是一些维度信息啊,没错吧,和DW层一样,哎,我们也把这些维度信息退化到了宽表当中啊,这里边分别是brand,手机品牌、model手机型号、channel渠道、OS、操作系统、error code地区ID version code应用版本。OK,那这个我们就不再多说了啊,好往下走,那剩下的这些字段就都是统计值了啊,然后大家注意观察一下啊,这些统计值是不是都是与访问相关的。
01:09
没错吧,在这儿没有什么加购,没有支付,没有下单,是没有这些对吧?这是为啥呀?诶因为前面咱们分析过对吧,访客他是不是权限比较低,他是做不了什么加购啊下单或者支付这些操作的,对吧?那要想做是必须得注册并且登录啊,对吧?啊所以在这儿呢,只有一些跟访问相关的统计啊好,我们来看一下里边的具体内容啊,首先前两个字段是首次访问日期和末次访问日期啊,其实这两个字段是不是就对应于用户主题当中的首次活跃日期和末次活跃日期啊啊OK,那我接下来继续往下走,下边两个字段是啥?是最近一日访问次数和最近一日访问天数啊,那接来往下走,这是啥?这是最近七日的访问次数和访问天数,那这个呢,是最近三十日的,那再往下呢,是从开始至今的累积访问次数和访问天数。
02:00
OK,那这些就是我们诶访客主题表的所有字段啊好了,那字段完了之后呢,我们再来看一下它的分区是如何规划的啊,那首先它的分区字段呢,是地T啊,那它具体的分区规则是什么样的呢?很简单,也是按天分区啊,每天一个分区,每天一个分区啊那每天的分区当中保存的是什么数据呢?啊,每天的分区当中保存的是截止到当天的全量的访客的累计行为。啊,是这样的啊,那当然这个是理想情况下的啊,为什么我说理想情况下的呢?因为咱们前面分析过啊,由于哎,我们的访客数据是不是主要来自于用户行为日志啊,对吧,那我们的日志是不是没有历史数据啊,一般情况下啊,那所以说实际上我们在这儿呢,是拿不到真正的全量的访客的啊,那我们只能怎么做呢?随着时间推移,哎,让这个数据呢,逐渐的去接近全量。啊,这个呢,大家一定要理解一下啊,它跟我们的用户还是有点区别的,没错吧,在用户是能够做到绝对的全量的,没错吧,因为业务系统的数据库当中是有全量的用户信息的啊,但是访客呢,咱们做不到真正的全量啊,OK,这块大家理解一下就可以了啊好,那这就是咱的分区规划啊,那到目前为止这张表的表结构我们就说完了。
我来说两句