00:00
好,那我们从本节开始搭建A层啊,A层的全称呢是application data,叫做应用数据层,没错吧,那这一层呢,存储的其实是数据仓库后续的各项应用所需的计算结果啊,那咱的这个数仓后边呢,会有一个报表应用啊,所以这个仓的ADS层目前存储的就是各个报表需求所需的结果啊,OK,大家可以看一下啊,那这些就是各个报表需求,那每个需求对应一张表啊,那当然每张表当中呢,可能会有多个指标啊,你就比如说第一个需求啊,它里边呢,就有这么多的指标。啊好,那接下来呢,我们就开始第一个需求,第一个需求呢是访客统计啊,那这个需求呢,是访客综合统计啊,就是里边呢,它包含了多个指标啊,那下面呢,是对每个指标的解释说明,诶我们一起来看一下啊,我们先看第一个,那第一个指标呢,叫做访客税对吧?那这个所谓的访客税实际上统计的是统计的是访问人数啊,那当然呢,让我们统计的肯定是一段时间之内的访问人数啊,那这一段时间到底指的是多久呢?哎,在这儿呢,我们让大家统计的实际上是最近一日的访问人数,以及最近七日的访问人数,以及最近三十日的访问人数。
01:15
啊,包括下边的指标呢,那同样需要去统计最近一日的一个值,最近七日的一个值,以及最近三十日的一个值。OK,那接下来我们继续往下看啊,看第二个指标,第二个指标叫做页面停留时长啊,这块呢,让我统计的是所有页面访问记录的总时长啊,那最终的结果呢,要求以秒为单位啊好,接着往下看。下边一个指标呢,让我们统计的是平均页面停留时长啊,那具体内容是什么呢?具体内容是统计每个绘画的平均停留时长啊,那最终结果也要求以秒为单位,OK,那什么叫做一个绘画呢?啊,那比如说呃,一个访客打开应用,然后呢,做了一系列的操作啊之后呢,他退出了这个应用,OK,那这就叫一次会画啊OK,在这儿我们统计呢,就是每个绘画的平均停留时长。
02:08
啊好,我们接下来继续往下看啊,那下一个呢,是页面浏览总数啊,那这个实际上我们统计的就是所有页面访问记录的总数啊OK,下一个下一个是啥?下一个是平均页面浏览数啊,当然在这儿我们统计的也是每个绘画的平均页面浏览数啊好,那接下来往下看,那再往下呢,是绘画总数,那也就是统计一下那一共有多少个绘画啊,那当然肯定也是一段时间之内的,对吧?刚才我们也说了,让我们统计仍然是啥呀,仍然是最近一日,最近七日和最近三十日了啊好,我们继续往下看,下一个呢,叫做跳出式,对吧?那什么叫做跳出呢?给大家解释一下啊,如果有一个绘画呢,只浏览了一个页面就结束了,诶,那我们就称之为一次跳出啊,那实际上这个跳出顺啊,让我们统计就是啥统计的是不是就是只浏览一个页面的绘画的个数啊。
03:02
没错吧,OK,那我们看最后一个啊,最后一个呢,叫做跳出率啊,对吧?那什么叫跳出率,跳出率是不是肯定是一个值比上一个值啊,对吧?哎,这叫率嘛啊对不对?那跳出率指的是谁比谁呢?那实际上呢,跳出率指的就是跳出数与绘画总数的比值,也就是什么呀,也就是说只有一个页面的绘画占总绘画的比例,没错吧,这就是所谓的跳出率啊,那接下来我们再来看一下这个需求的建表语句啊,来,咱把它粘出来一起看一下。来看RZ。好,我们一起来看一下啊,我们重点看一下这张表的字段就可以了啊来我们先看这几个字段来从UA开始到崩rate啊,这几个字段呢,实际上对应的就是我们刚刚所讲的每个指标啊,一个指标对应一个字段,OK,那所以这些呢,我就不再一一解释了啊好,那接下来我们看一下上边这几个字段啊来我们先看一个DT啊,这个很简单,就是一个统计的日期,在这呢,指的是我们统计的数据的日期啊,那我们再来看一下剩下的这三个字段啊来我们主管看一下,先看第一个,第一个呢是一字new对吧?那干啥的?这是后边说了新老标识对吧?啊,那这儿当然指的是什么呀,是新老访客的标识,没错吧,那如果是一呢,代表的就是新访客,如果是零呢,代表的就是老访客啊,那这个什么意思呢。
04:21
啊,实际上这样的意思呢,就是让我们分别去统计新访客和老访客的下列指标,比如说举个例子啊,他让我们去统计新访客,哎,他的访问人数,以及老访客的访问人数分别是多少啊,后续每个指标都是一样的啊OK,那我们继续往下进行啊,我们再看第二一个字段。第二算什么呢?是recent days啊,这个指的是什么?是最近天数啊,当然在这儿了,如果是一,指的就是最近一天啊,如果是七呢,指的就是最七天,如果是30,指的就是最近30天啊。那这个是什么意思呢?很简单,它的意思就是让我们去分别统计最近一日、最近七日和最近三十日的下列指标。
05:01
在这儿呢,我们还是举一个例子啊,还是以这个访问人数为例,在这儿他让我们统计应该是啥呀,是不是分别去统计最近一天的访问人数,最近七天的访问人数和最近30天的访问人数啊。啊,OK,那接下来我们再来看最后一个字段,就是channel啊,这个channel指的是啥?指的就是渠道对吧?当然指的就是我们应用的下载渠道,那它的含义是什么呢?啊,实际上在这它的含义就是让我们去统计不同渠道的下列指标,OK,那这就是这张表的所有字段,那最后呢,我们再来看一下ADS层的数据存储啊,大家注意观察一下啊,ADS层我们是不是已经没有了分区对吧?也没有了存储,也没有了压缩,对不对啊,那也是这张表呢,它底层存的是不是就是普通的文本文件呀,对吧?诶,这是为啥呀?啊,给大家简单解释一下啊,由于咱现在这个ADS层的表呢,存储的是不是都是我们后续的各个需求的结果呀,对吧,那这个数据量呢会很少,所以在这呢,我们就没有必要去分区啊,也没有必要去哎进行劣势存储和压缩了,OK,那这就是第一个需求的天鳗鱼。
我来说两句