00:00
啊,来吧,各位同学,我们现在继续往下看,看一下我们第现在是第15章汇头表了啊来看一下,先看一下标题,它叫做流量域啊,是来自于浏量域的了啊然后呢,是绘画力度绘画,绘画这个概念大家应该还记得对吧?OK,继续往下走,页面浏览最近一日汇总表,诶,那大家琢磨琢磨,你说这张表里将来会存什么数据?这相当于是把页面浏览那个事实表对不对,页面浏览时表是里面存放的每一条页面浏览记录啊,对吧,然后呢,里边最近一天的这个浏览记录拿出来,然后呢,我给他聚合到了绘画的这个力度,那你说你得到的数据,你得到的结果应该是什么?你想啊,我现在是把同一个绘画里边的,是不是多个页面浏览记录聚合在一起的呀,对吧,那你聚合在一起能得到什么东西?得到什么东西?首先我能不能得到一个绘画的总时长能不能得到?
01:03
想象不到吗,这个。应该能想象到吧,对吧,你想啊,就是我们首先你拿的数据是页面浏览这个表对吧,这个表我每行是一个页面浏览记录,对不对,那一个页面浏览记录我我能有什么度量值。一个页面就我能有什么,咱们其实就一个度量,明显的度量就一个就是啥,就是你这个页面的停留时长吧,没问题吧,好,那你把同一个会画下边的多个页面浏览记录我聚合在一起,那我聚合的不就是那个浏览时长嘛,对不对,那你是不是能得到一个每个绘画的总时长啊,对不对,这是我们能得到一个结果,那你还能得到什么呢?是不是还是从度量值去考虑对吧?那在这张表当中,我除了有这个每个页面的停车市场,我还会有一个隐含的度量值吧,那就是什么呢?是不是就那个次数一嘛,对不对,是不是我也能得到,就是我每个绘画它一共浏览了多少个页面啊对吧?这行是不是表明它浏览了一个页面对不对,OK,所以说那这边我们能得到结果无非就是每个绘画它的停留总时长,还有它浏览的页面的总数啊,是这样的啊诶这个大家稍微的理解一下,这个其实比较简单,行了,那接下来呢,我们继续往下看,咱们来分析分析这张表最终的见表语句,还有它的数据状态,先看它的见表语句,好,咱们看一下啊,首先看一下它的表明,它叫做DWS,然后呢是traffic流量域,然后呢是session,是绘画的力度,然后呢是page u对吧,这个页面浏览,然后呢是最近一天会总表行了,那这个完成之后,咱们继续往下看,来分析一下这张表的行还有列,呃,每行呢在这张表里是不是应该就是一个。
02:41
绘画呀,对不对,这个很简单,那接下来我们看一看它具体的字段都有啥,呃,字段呢,前边这一部分都是什么呢?都是维度吧,没问题吧,然后往下走这些呢,都是度量值,呃,然后呢,这个维度我们在这儿是不是又做了啥操作,是不是又做了退化了呀,对吧?OK,好,那这边呢,我需要给大家呃去明确一下啊,就是按照我们之前的这个理论来说呢,维度退化这个事儿呢,可以做也可以不做,对吧?啊对吧?哎,那但是在这儿呢,大家要明确一下,这个表咱必须得做。
03:13
这个表必须得做前面那些表对吧,你看我们是不是有的,比如说我给他退化了一个商品的信息啊,有的这个用户信息我可能就没退化,对吧?理论上这个维度退化是可选的,但是对于这张表呢,是必须得做的,其实家可以分析分析,你说为什么这张表咱就必须得做。这张表为什么必须得做?你那啊,这些什么设备的信息对吧,品牌的信息啊,这个呃,这个应用版本信息,咱是不是都给它退化了,对吧,这个为什么必须得退化,包括这个渠道。这个其实道理也不难理解啊,你想想,首先那大家都知道这张表所对应的业务过程是谁,是配置view对吧?没问题吧?那页面浏览这个业务过程所对应的那个事实表,它之前是不是就做了维度退化了,没问题吧?OK啊,也就是说与页浏览相关的这个维度信息,我们本身就都已经退化到这个实时表,我们就根本就没有什么呀,根本就没有什么设备的这种维度表,也没有什么渠道的这种维度表,对吧?这样,那所以说如果你这儿要是不做维度规划,你比如说我这儿只保留一个设备的ID,我要想去拿这些设备信息,你你去哪儿了?你有这个设备维度表吗?你没有对吧?那将来你要需要用的话,你得去哪儿关联。
04:28
是不是有可能你需要去跟事实表那边去关联,拿这个信息啊,对吧,那对不对,但这个显然是不允许这么去做的,对吧?那所以在这儿呢,这些维度信息咱们必须得退化进来,也就这里边就是一个原则,什么原则呢?如果你之前在做事实表的时候,对吧?你所有的维度你都退化进来了,你没有去见维度表,那由这张实时表是不是聚合得到的汇总表,咱们也必须得把这些维度都拿过来啊,对吧?诶,这个应该是大家能够想明白的一点啊,行了,这个大家注意一下就行了,好了,那这张表的字段咱们基本上就说完了啊,这上面就一些维度的属性,下面就是我们刚刚提到的那个,哎,访问时长和访问的页面总数那两个统计值,好了,行和逆就都完事了,接下来明确一下它的分区规划,那大家想想,就它的分区咱怎么规划呀,这因这因为这是一个新的数据预了啊,咱们再把这个分区点一下怎么规划,是不是还是一天一个分区对吧,每天的分区是不是还是存放我当天的页面浏览记录的一个汇总值啊,对吧?哎,就是这样的啊,这是它的分区规划,那接下来我们来看一看它的数据装载怎么做。
05:28
好,那现在问题来了,你说它还要不要区分首日的每日,这是一个什么域的,这是一个流量域的,对吧?咱们前面讲过流量域的数据都来自于哪,都来自于日志,而日志本身就是没有历史数据的,对吧?没,没问题吧,我在ods层的时候我就没历史数据,我到了DWD呢也没历史数据,对吧?那所以说我在从DWD取顺往咱们这张表里装载的时候,就不需要考虑历史数据了,对吧?啊,那所以说在这呢,我们第一天跟后续每天的逻辑都是一样的,所以只需要写一个circle就行了。好,那接下来呢,咱们就看一下这个circle怎么写就完事了啊,不再自己手写了,其实也很简单,来,CTRLC,咱们拿过来CTRLV,好了,各位同学,那现在咱们来一起看一下这块的这个内容啊呃,首先我们select完了之后呢,是不是这张明细表啊,对吧,那明细表之后呢,这边我们就拿它第一个分区,那就完事了,拿到之后接下来你看他怎么做的。
06:22
是不是直接按照这一大串字段进行分组啊,对不对,OK,那我问一下大家,按照这一串大呃一串字段分组,能不能影响到咱们这个结果的力度,你看啊,你是按照谁分组的,你是按照30ID加上这一大堆东西分组的,对吧?它会不会改变咱们这个力度呢?其实就是会不会改变这个咱们的这个期望的力度啊,这个怎么去判断呢?各位同学你怎么去判断对吧?哎,我这儿呢,按照这一大串字段分组和我按照这一个字段分组,他们的结果是不是一样的,这个怎么去判断呀?你就记住这样一个原则就行了,你就去看一看啊,是不是会出现这样一个情况啊,这一个30ID是不是只会对应一个mid,是不是只会对应一个brand,一个model,一个op,如果是,那你是不是就是按照这一大串分组跟按照这一个字段分组就是一样的了呀,对吧?啊是这样的,那咱们这满足满足这个条件,显然满足你一个绘画里边,你不可能说你是俩设备对吧,没问题吧,那你一个绘画里边,你也不可能是俩品牌,俩型号,俩操作系统,俩版本,然后呢,俩拆对吧?不可能对吧?那所以说这边呢,那我们按照这一堆字段分组跟按照这一个字段分组,那效果是一样的,那这一点大家要稍微的理解一下啊,行了,那这个完成之后呢,我们把字段选出来,然后呢,该聚合进行聚合,最终呢,就把结果写到咱们这张表十四二分区,那就完事了,这是咱这张表的数据状态好了,那数据状态做完之后,我们继续往下看啊,那理论上啊,那咱们是不是得看一看,就是有没有跟它相对应的那个N地表啊,对吧?来有没有是不是还是得看需求来我们找一下往上翻,往上翻。
07:56
首先绘画力度是不是在这儿对吧?然后前面业务过程页面浏览,这是不是就我们刚刚所那做的那张汇总表下边的排量指标啊,对吧?然后呢,看一下统计周期有一是不是也有N呢?对吧?那理论上是不是应该会有一个与之相对应的ND的汇总表,那接下来咱们就去看一看有没有来找一下各位同学啊,看有没有。
08:15
首先你得找流量域啊,前面是不是都是交易域,所以这个肯定没有,那流量域是不是只有一张表,那这一张表是什么力度,是访客页面力度,还不是绘画力度,对吧?那也就是说我们这个现在这个数字这个这个文档当中是没有与我们这个表相对应的那个ND表了,对吧?诶这个是为什么呢?我这明明有这种ND的统计需求啊,那我为什么没有这个ND的汇总表呢?这个好像跟咱们之前的理论不太一样,对吧,这个是为啥。再来想一想,是忘了见了吗?还是说没必要见呀?其实是没必要建,为什么没必要啊,咱们来琢磨琢磨,各位同学就是假定啊,咱们现在呢,把这张表给它建出来了,我们建出来了一个什么力度啊,注意观察,我们建出来了一个是绘画力度的ND的汇总面,那各位同学你想一下,那你将来把这个面建出来之后,你是不是得往里边进行数据装载对不对?好,那你琢磨琢磨,你说数据装载怎么做?
09:20
咱们是不是得拿到哪得拿到,拿到我们这个一地表是不是,比如说拿30个分区啊,对吧,拿到30个分区之后,你是不是得对它进行聚合,好各位同学,你说聚合到什么力度,是不是还是聚合到绘画力度。是是是这个道理吧,OK,那也是我们需要按照S式ID进行分组聚合,对吧?那你聚合完之后,你说这个数据的行数它会发生变化吗?根本就不会发生变化对吧?用一句时髦的话来说就是,就是你聚合了个什么东西呢?寂寞是吧?就是那个意思啊,OK,为什么这个大家可以分析分析,因为绘画它有一个特点,它是它是什么呀,它具备一定的唯一性,对不对,30ID是咱们自己家的对吧?30D是不是具备一定的唯一性,对不对,什么意思呢?就是假如说我现在呢。
10:06
把咱们这个呃一地表的数据放在这儿了,然后呢,我拿它,假如咱们就拿七个分区啊,这是1234567对吧?OK,那我一个绘画ID我是不是只会出现一次啊,在在咱们这张表当中对不对?OK,也就是说诶这儿比如说有一个绘画ID11,那我不可能说在这儿还有一个绘画ID1,这儿还有一个ID,这是不可能出现的,那是这样的啊,那也就是说我在每个分区当中,我的会员ID都是唯一的,好,那你相当于你拿七个分区,你拿过来之后,你按照会员ID聚合,你可能会把比如说多条数据聚合到一条吗?根本就没有,你相当于根本就没去做这个聚合,你相当于是原封不动的把一地表的七个分区的数据拿过来了,拿过来之后呢,又存了一份放到了这个ND表里了,对吧?啊是这样的,所以说你没必要去做这个ND表啊,这一点大家要注意一下啊,是这样的啊,这块大家应该是能想明白的吧,啊,什么时候聚合才是有意义的呀,什么时候聚合有意义,就是说OK,假如说我一个绘画,或者说我另外的一个东西啊,OK,我会在。
11:06
表里我重复出现多天对吧,那这种情况下咱们去做聚合,它是不是才是有意义的对不对,你像这种你在一只会出现在一天里边,你聚合就没意义的,你跟谁聚合呀,对吧,你一共就一条了,对吧,这个大家理解一下就行了啊,所以在这儿呢,我们就没必要去见与之对应的那个ND的汇总表了,这一点大家稍微意识一下就行了啊行了,那这个完成之后,视频我给他停一下。
我来说两句