00:00
好各位,那现在我们就正式开始上课啊,呃,现在呢,我们再来看一下咱们上午的最后两张表,呃,首先我们先看一下这个一地表,这个一地表咱是不是就只剩下这最后一张了呀,只剩下这个最后一张了啊,咱把它看完那就算是完事了啊来,那咱们现在先把它看一眼,呃,我们看一下这张表它叫什么啊,我这边拉一下这张表呢,它的名字叫做流量域,也是流量域对吧?然后呢是访客页面力度,然后呢是页面浏览,最近一直回总表,哎,还是老规矩,大家自己想一下,想象一下你说这张表里它可能会存什么样的这个数据啊。咱们想一想啊,把什么把页面浏览这张实时表最近一天的数据拿过来,我们做了一个聚合,聚合到了访客页面的力度,那你说能得到什么呀?哎,首先咱得知道把什么样的数据聚合在一起了啊,我们是把同一个访客浏览同一个页面这样的记录是不是聚合在一起了,对吧?那咱们能得到的结果就是啥呀。
01:02
是不是就是每个访客浏览每个页面的次数或者是时长啊,对不对,比如说张三对吧,今天浏览了首页,浏览了五次,一共浏览了比如说五分钟,诶是不是应该是这样的一个结果呀,对吧?诶大家应该是能想明白的啊好,那现在呢,我们继续往下看,咱来看一看这张表的这个表结构,哎,到底是什么样的啊来CTRLC咱拿过来,呃,放到这儿吧,CTRL位好了,那接下来咱们一起把这张表它的这个加面语句给它过一下啊,首先先看表明表名了,叫做DWS,然后后边的是流量与流量,也就是traffic对吧?然后后边的是什么?是配置visitor,呃,这个当然配这个怎么看啊,这个配置呃,诶我看一下这个怎么看啊,配置visitor这个指代的应该是什么?应该是它的力度吧,对吧,咱们刚才说的是访客页面力度吧,OK,然后后边这个配置为这个应该是它那个业务过程页面浏览啊,这个得得分,对了啊,要不然就乱套了,行了,那接下来咱继续往下看,表明搞清楚了,我们再来看一下它的这个。
02:03
房列,哎,是怎么规划的啊,好,它的一行指代的应该是一个什么?是一个访客对应一个页面对不对?好,那访客我们通常是用什么标识来着,访客是不是用设备ID标识啊,对吧?所以在这大家来看一下,那这个其实就是咱们那个访客的标识啊,在这呢,叫设备ID或叫访客ID都行,然后往下走,下面呢,是不是就是那个配置ID啊对吧?一行代表的就是一个访客对应一个页面,哎,好了,那这个行明确了,我们再来看列啊,列还是两种呗,一个就是维度,一个呢就是这个度量,这个维度呢,我们主要包含两个部分,一个是访客,也就是设备的相关信息,还有一个呢,就是页面的相关信息。好了,那接下来往下走,下边的那个统计值了,统计值有俩,一个是浏览的时长,一个是浏览的次数,当然在这张表当中,时长跟次数的含义具体是什么呢?具体是一个访客浏览一个页面的时长,还有一个访客浏览一个页面的次数,诶,这个理解一下啊,行了,那这个行和列都完事了,分区规划呢,仍然是那种异地表的通用的规划,这个我就不再重复了啊。
03:03
好,那接下来咱们分析分析它的数据装载怎么做,还是分析一下就行了,我们就不用实际去写了啊,分析一下吧,呃,首先它仍然不需要区分首日和每日对吧?因为没有历史数据嘛,对吧,那也就只需要写一一个cel就行了,那这一个cel怎么写呢?应该这么写啊,首先我们需要先找到这张实时表对吧?页面浏览实时表,那然后呢,我们是不是需要拿它一天的数据啊对吧?拿到之后呢,我们需要对数据进行一个分组,按谁分组,是不是按照访客加上页面进行分组就行了,对吧?但是不能光按这俩字段分组,我们也得把谁带上这些维度属性是不是咱也得带上对吧?啊,那带上之后我们对它进行一个分组,然后呢,再进行聚合,那聚合呢,主要是得到这俩值就行了,一个是对萨一,一个是对那个那个浏览时长进行萨求和一个呢是count一下,是不是就浏览次数啊对不对,OK,那这样一来我们这张表的数据状载基本上也就明确了啊好了,那这个30号怎么写,我们就不再去哎1.2看了,其实非常简单啊,行了,那这张表咱就搞定了,搞定之后。
04:03
咱们还是去分析分析它会不会有一个就是ND的表啊,会不会是不是还是看这块啊,对吧?大来看这个是不是就是页面访客力度,这个呢,就是页面浏览业务过程跟刚才是相对应的,对吧?有ED有ND对吧?诶,那这个N这还写错了,这应该是30,没有31啊好了,那接下来咱们继续往下走,那呃,按照这儿来看呢,它应该会有一个ND的表,对不对,那这儿咱们来分析分析它有没有必要去建那个ND的表,其实刚才咱们那个绘画力度,你发现它是没必要建ND表的,对吧?那这个有没有必要呢?就是有没有必要,咱们取决于什么来着啊,取取决于就是你那个力度啊,就是力度所对应的那个维度字段,它会不会重复的出现在一地表的多个分区,对吧?那咱们这这个力度是什么力度是访客页面力度,对不对?那你说同一个访客,同一个页面,我会不会出现在一地表的多个分区里边呢?会不会出现,应该会吧,对吧,因为我很有可能会出现同一个人在不同的日期浏览同一个页面嘛,对不对,那所以说我可能同时可能出现这个聚合是不是才是有意义的呀,对不对?所以在这儿呢,它会有一个ND的表啊,那接下来咱们去看一眼,往下翻找到ND这一小节,然后再往下走,找到与之相对的这张表,应该就是它,对吧,就是这个啊,咱现在呢,把这个东西再给他看一眼就完事了啊来拿过来CTRL位来吧,咱们现在一起把这张表建表语句给它熟悉一下,首先熟悉一下它的表明叫做DWS,然后呢叫做traffic traffic是不是又是流量域啊,对吧?然后配置visitor,这是力度,然后配置为U是它的业务过程,然后是。
05:37
是最近N天的汇总表,好,那现在明确一下这张表的具体的表结构应该是什么样的一行仍然是一个什么。一行仍然是一个访客,对不对,对应一个页面,这是行,OK,行完之后呢,我们继续往下走,呃,行完事之后是不是该看列了呀,对吧?列还是两部分呗,一个就是维度,一个就是统计值,那维度呢,还是访客加上页面,然后里边退化了一些反呃,这个设备的信息,然后往下走,下边呢,就是七天的统计值和30的统计值,这是两本的表结构好,那它的数据装载怎么做呢?是不是仍然是找到相对应的那个一地表拿30个分区,然后呢,按照midd加这一堆属性,还有配置ID进行分组,分完组之后呢,我们直接求和,就是这俩值,有条件去和,就是这俩值就完事了。哎,这个也比较简单啊。好了,那我再强调一下,将来咱们用这张表的时候,需要注意一个什么问题,也就是主,假如说呃,在今天的这个分区当中,我们这儿出现了一个访客,出现了一个页面,比如说张三啊,比如说首页对不对,一定能代表他在最近七天内浏览过这个页面吗?不一定对吧,那这个时刻得注意到这个问题。
06:44
因为将来咱们在做需求的时候呢,如果你这儿注意不到那个结果总结出来是不是就不对了呀,对吧?哎,这个一定要注意啊,行了,那这就是咱这张表它的相关内容,呃,状态语句呢,文档当中都有,我们就不再一点点去看了,还是常规的写法啊,先完成之后视频我停一下。
我来说两句