00:00
我们分析页面日志表,首先明确啊,页面日志表,它这个表的内容应该来自于我们ods层的哪种日志啊,应该来自哪种,两种从结构上说啊,一种是启动,一种是啊页面对吧?那你说它应该来自于谁啊,那肯定是页面日志啊,肯定是他啊,那接下来咱们就来分析分析啊,既然来自于这个页面日志啊,那我们现在就来分析一下我们这个起页面日志表我们应该怎么设计。啊,怎么设计怎么设计,还是考虑俩问题呗,一个就是这里边一行数据所指来的内容啊,是什么啊,第二一个呢,就是每个字段是啥,还是考虑这俩问题啊,那它里边一行数据应该是什么呀,还是考虑到这个明细这个词对吧,那考试明细,那最最明细的数据应该啥,对于页面来说。那就是啥?是不是一次页面浏览记录?就是它最明细的一个记录啊,对不对,所以说在页面这个表当中啊,页面日表当中,我里边的每行数据,它所指代的就应该是一次,哎,页面浏览记录啊,就是张三访问了什么页面啊,就作为一条记录,李四访问什么页面,又作为一条记录。
01:11
啊是这个意思啊,注意是一次访问记录啊一次好,那这个咱们先明确下来,明确下来之后呢,咱们来来分析啊,咱分析啥呢?啊,咱们分析一下呃,这个字段啊,看一下字段。啊,你说页面应该包含哪些字段。现配置是不是肯定得有,这个没什么可说的啊,必须得有,那下边那个TS要不要。要这是什么?这是浏览页面的这个日日时间对吧,所以他是肯定得要的啊,那对于艾要不要啊。这个不要,因为有一张表是专门用来存艾瑞的,那曝光要不要呢?也不要,因为有一张专门的曝光表,动作也是一样的道理,公共字段呢?这肯定是得要的啊,因为咱们得知道是谁浏览了什么页面吧,是不是得知道这些信息啊,OK,那这就是咱们最终这张表的一个设计思路啊,就完事了啊,大家来重复一下,异常数据代表一次页面浏览记录表当中字段的应该包含公共信息,页面信息,以及哎,这个跳入的时间啊,就是这些啊好,那接下来咱们就把这张表去解析一下啊,其实大家呃思考到这呢,应该大致就能想到这个表的circle啊,以及见面语句什么样的了啊,跟刚才启动日其实没啥太大区别啊,来看一下。
02:27
这张这是他这张表的一个这表语句DWD配置log啊看到然后表的字段呢,是不是就来自于刚才咱们那个日志啊,这个就不再大家去看了啊,应该都知道怎么回事,然后呢,呃,也是分区表啊,也是列式存储加压缩啊,搞定啊是一样的啊好,那这个表的circle呢,那咱们直接就写了啊,这个不用再再再卖什么关子了啊,直接insert overri table dwd配置log对吧?然后边呢,哎,Partition别忘了啊,DT等于啊,2020杠零六杠幺四啊,然后后边加select啊select from雷代表是不是还是Oslo,那过滤条件呢,还是先过滤DT等于2020杠零六杠幺四啊那下边呢,And是不是也得过滤一下呀,对不对,咱们得从页面日当中去拿这个数据嘛,所以说还是get接object把谁放进来。
03:22
把这放进来是还是把line放进来,然后呢,获取一下,这次得获取谁了,得获取那个page置字段了吧,对吧,Page字段,诶,然后呢,Is,诶,Not no,哎,获取到了,那剩下剩下简单了,是不是还是get杰son object,然后呢,把line放进来,我们要获取的第一个字段呢,是不是还是这个error code呀,所以里边是不是还是这么写,这个我都记住了啊,直接dollar.co Mon.a是不是获取第一个字段,然后第二第三第四是不是都是这么获取,那这个是一样的啊,咱们那就不再多说了,它比较简单啊,来把它直接拿过来。
04:01
哎,CTRL,诶这个多了一个select啊,把这个粘过来CTRLC啊,然后放到这里面来。OK,搞定啊,那这个还是一样的啊,咱们就先给它select一下就行了,至于insert呢,我们放在后边再执行啊,统一的再用脚本导,诶这个数据出来了啊,很简单啊,搞定啊行,那这就是我们在这儿呢,给大家演示的第二张表啊,页面日志啊,大家把视频录一下。
我来说两句