00:00
呃,行,同学们,那现在我们来看一下,呃,汇总模型设计,哎,这这一部分内容我们应该怎么去做啊?呃,那前面就提到过,说汇总模型的设计呢,是需求驱动的,所以说我们要想去把这个汇总模型设计出来,就首先得干啥呢?去明确统计指标对吧?好,那明确统计指标怎么去明确?这个咱怎么去明确,好,那现在我们看文档来,那现在呢,我们一起来看一下啊,他说明确统计指标的工作是什么呢?是深入分析需求,构建指标体系啊OK,这里边注意观察,这里边是不是有一个特别的强调的一个词叫做深入分析需求啊,对吧?那咱们什么时候就是已经就是不是那么深入的分析过一次需求了,什么时候。什么时候一就是不是那么深入的分析一次需求,什么时候就对就就我们在最开始做数据调研的时候,是不是咱们已经做过一次需求分析了,对吧?但这个需求分析我们其实就是简单的分析了一下,咱们只是分析了什么东西,只是分析了一下,OK,就是我这个需求需要用到什么业务过程,需要用到什么维度,是不是只是一些粗浅的分析啊,对吧?OK,那咱们现在在做明确统计指标这一步的时候呢,我们要做的工作是什么呢?是深入的分析需求,那怎么叫做深入的分析需求?
01:17
哎,就是说你这时候你必须得去分析每个需求的实现思路了,就是说你得知道OK,将来这个需求我应该怎么算,我的计算逻辑是什么,这就是所谓的深入分析需求,咱们要做的工作,但实际上我们前面对吧?呃,做这个最开始业务调研,数据调研的时候,对吧?咱们做需求分析,我们只是明确了OK,我需要用到什么业务过程,需要用到什么维度,那其实说白了就是什么,你需要用到哪个实时表,需要用的哪个维度表,对吧?也就是我们之前只是知道我应该从哪张表里边取出来,但是我并没有去分析我从这个表里边把数据取出来,我应该对它进行什么样的逻辑运算,对不对,实际上之前没有做这个逻辑运算的分析,那咱们现在深入分析需求的这个工作,就是你需要明确每个需求,每个指标的运算逻辑,或叫做计算逻辑,诶这一点要给他搞清楚好了,那这个计算逻辑咱们分清完之后呢,那咱们就可以去做一个什么操作呢?就是可以去做一个构建指标体系的一个工作了,那指标体系呢,现在对大家来说是一个,呃,相当于是一个新的概念,对吧,我们并不。
02:18
知道什么叫做指标习,没关系,那一会儿呢,我会给大家详细的去说这个指标体系的相关概念的,咱们一会儿再说啊,就这一步呢,首先我们要做的工作就是分析需求,你得分析每个需求的实验思路啊好,那接下来咱们继续往下走,那往后看他说诶,我们是最终需要去把这个所谓的指标体系构建出来,对吧?那构建这个所谓的指标体系,咱们的主要意义是什么呢?往后看啊,他说构建指标体系的主要意义就是指标定义标准化,诶那这个所谓的这个指标定义标准化大家是怎么去理解的呢?诶大家还记不记得,就是我们在最开始讲数仓建模的意义的时候,我我们其实提到过一点,说良好的模型能够干什么来着,是不是能够就是避免统计指标,呃,统计口径的混乱,是不是减少这个计算错误的可能性啊,对吧,是这样的,OK,那之前咱们提到过这样的一个概念,好,我们之前怎么说呢?我怎样能够去避免这个所谓的统计口径的混乱呢?怎么去避免,哎,你要想知道怎么避免,首先得知道这个所谓的指标统。
03:18
及口径混乱是怎么出现的,对吧?同计口口径混乱怎么出现的呀,是因为之前咱们去定义指标的时候,是怎么去定义,是用文字,是不是去定义,用文字去描述啊,对吧?诶那这样一来的话,就可能出现什么问题,是不是歧义啊,对吧?那不同的人对这个文字是不是理解呢?哎,可能有不同的这个理解啊,对吧?那所以说那他让你那么算,结果你是这么算的,诶那是不是就是出现这个所谓的统计口型的混乱来,对吧?那怎样解决混乱的问题呢?很简单,那就是干啥呢?我去制定一套什么呀,制定一套标准,对吧?那完了之后呢,所有的这个指标定义都让他去遵循这样的一套标准,对不对?那这样一来的话呢,诶,我们是不是就可以有效的去避免这个指标定义存在歧异的问题了呀,对吧,诶是这样的啊,OK,好,那这实际上呢,就是我们构建指标体系的一个主要的意义,对吧?你构建指标体系就能够让我们这个指标定义的,哎,这个变得更加标准,就能够去避免这种起义,诶这个发生,诶是这样的,这一点大家需要注意,OK。
04:18
那当然呢,这个是什么呀,这是我们所说的构建指标体系的一个主要的意义,主要的意义当然呢,构建指标体系还有另外的意义,什么意义呢?就是对于我们这个数据仓库建模的意义,我们往下翻。往下翻,OK,那这是不是还有一小节,就是指标体系对于我们数据仓库建玩的意义啊,对吧?当然这个对于数仓建玩的意义,主要指的是哪一层的建玩呢?主要指的是DWS层,OK,那他对DWS层的建设有什么样的意义,我先简单的说一下啊,就是当一会儿啊,咱们把那个指标体系构建出来之后,你就会发现啊,我们从这个指标体系里边去寻找那些各个指标的中间的计算结果的时候,咱是不是得找一些指标的公共的中间的计算结果呀,对吧?你再去找这个公共的中间计算结果的时候,就会非变得非常容易,OK,那这个变得容易了之后,那我是不是就构建这个DWS层的这个模型就会变得比较容易啊,对吧?因为说白了DWS层我就是要存什么来着,就是要从各个指标的公用的中间的计算结果嘛,对吧?那我有了这个所谓的指标体系,我再去找这个公共的中间计算结果就会变得容易,那所以说构建指标体系,对于数据仓库DWS层的这个建模也是非常有意义的啊,这样的啊,也就是说这个指标体系呢,在这儿呢,我们主要是两个意义,一个是指标体系能够让指标定义变得变得更加标准,那变得标准化对不对,这是一个,那另外一个呢,就是。
05:44
是他对我们数据仓库DWS层的建设也是有意义的,OK啊,那当然在这儿了,我们呃,就首先得先干啥呢?得先把指标体系是什么,是不是得先搞清楚啊,对吧,说这么半天指标体系到底是啥还不知道呢,对吧?好,那所以咱们接下来的首要任务就是先去明确一下这个所谓的指标体系到底是个什么东西来各位同学,我们现在往上看,就是指标体系当中呢,呃,首先有这样的几个概念,我们必须得先了解,得先把这几个基础概念了解了,我们才能知道什么叫做指标信息啊好,那首先我们来看一下这几个非常非常重要的概念,第一个就是什么概念呢?叫做原子指标,那第二个概念呢,叫做派生指标,第三个概念呢,叫做。
06:24
呃,叫做什么呀?叫做衍生指标,这三个概念是我们构建指标体系的时候需要用到的概念,那首先我们一个一个看,先把这个基本概念搞清楚啊来,首先我们先把什么叫做原子指标,原子指标呢?在这儿它有一个这个一小段话,是不是进行了一个定义啊,对吧?这个咱不用看,我们直接看一个例子,你就能知道什么叫做原子指标了,咱直接看谁呢?比如看下边订单总额,这就是一个典型的原子指标,OK啊好,那完之后我再给大家说一个,比如说下单总次数也是一个典型的原子指标,对不对,退单总金额也是一个原资指标,支付总件数也是一个,诶原资指标。
07:03
OK啊好,那我说了这么多的原子指标的时候,那还琢磨琢磨,你说我这个原子质标它明确吗?什么叫明确吗?就是说我给你一个原子指标,给你一个这样的一个指标,你知道这个东西到底要算什么吗?你知道吗?比如说我给你一个订单总额,你知道你现在要算什么?你其实并不明确,并不明确对吧,为什么并不明确,你想啊,诶订单总额我算的到底是哪的订单总额呀,是什么时间的订单总额呀,是什么商品的订单总额,是不是根本就不知道是什么,对吧?那也就是实际上的这个所谓的原子指标,它并不明确。哎,他并不明确啊,那实际上咱们前面提到过一些明确的原则指标,对吧?呃,就提到过一些明确的这种统计指标,对吧?像像咱们那种明确的统计指标通常是什么样的呀?对,比如说让你统计一下,哎,比如说2020年各个国家的订单总额,你看这样的指标是不是才是明确的,它的定义是不是才是完整的呀,对吧?那从那你能看出来,咱们这个所谓的原子指标,实际上就是一个完整的计算指标的一什么。
08:07
一部分了,是不是就是一部分呀,对吧?啊,一个原子指标就是我们一个完整的明确的统计指标的一部分啊,那所以说呢,实际上原子指标就是用来我们辅助定义指标的一个概念啊,是这样的啊,OK,好,那你想一想是不是这个道理啊,对吧?那比如说我们要定义一个完整的指标,定义一个明确的指标,其实里边有一部分是咱们这个所谓的原子指标,对吧?OK,那所以说我们就说原子指标只是用来辅助定义指标的一个概念,OK啊,那它呢,通常不会对应实际的统计需求,对吧?没有说一个指标直接让你就算订单总额,这个你没法算,不知道算啥对不对,就是这个意思啊好,那将来我们继续往下思考,那原子指标去辅助定义指标的时候,它辅助定义了哪些东西呢?就是给你一个原子指标对吧?这个原子指标里边它定义了哪些内容,我们说了它是一个完整的指标当中的一部分,对吧?那原子指标定义了哪些内容?
09:02
实际上很简单,那我们前面就已经给出了答案,就是一个原子指标呢,它是能够为我们定义出来这个完整的指标当中的业务过程度量值和聚合逻辑的。那一个原子指标是能够帮我们去定义这样的三个内容的,为什么是这样的,咱们琢磨琢磨,比如说我现在呢,就把这个原子指标拿过来的,那你琢磨琢磨你能不能,诶找出来,就是你这个指标将来需要用到的业务过程能不能找出来,能吧,你订单总额,你找的业务过程肯定是谁,肯定是下单嘛,所以业务过程没问题,对不对?好,那完了之后呢,总额这个额指的是什么呢?是不是金额呀,对吧?那对于下单而言,我有金额的度量值,我有次数的度量值,我也有件数的度量值,对吧?那完了之后你一看总额是不是找的,肯定是金额的度量值,对吧?所以度量值它也能帮我们定义出来,好,我们继续往下走,那还有一个什么是总额总,什么叫总求和嘛,对不对,那是不是就给我们把这个指标的聚合逻辑也求出来了,对吧,你有求和,你可能还会求什么呀,比如说平均值嘛,最大值最小值,这是不是都是聚合逻辑啊,对吧,总代表的就是萨尔求和,那所以说你看啊,是不是一个这样的所谓的原子指标,就能够帮我们去定义一个完整的指标当中,对不对这样的。
10:16
三个概念啊,对吧?诶,那我只要把原子指标搞清楚,那我将来再去算这个指标的时候,我是不是就知道我需要用到哪个业务过程当中的哪个度量值,我需要对它进行什么样的聚合了,对不对,这就是所谓的原子指标的概念,诶这个咱们稍微理解一下行了啊,最终我总结一下,原子指标它只是一个完整的指标当中的一部分,它是用来辅助定义这个完整的一个指标的,哎,这一点要给他搞清楚好了,那么之后它能帮我们辅助辅助它是辅助定义啊,对吧?它能帮我们定义出来哪些内容呢?能帮我们定义出来这样的三个要素,那分别就是业务过程度量值和聚合逻辑,诶好了,那原子指标我们理解到这个程度基本上就够了,那接下来咱们继续往下看,我们看第二个概念做派生指标,那什么叫派生指标呢?这是一个新的概念,我们来看一眼,那派生指标呢,它通常是基于原子指标的,OK啊好,那派生指标跟原子指标有什么样的关系呢?它是不是基于原子指标对吧?好,我们继续往下看,那我这儿呢,画了一个PPT,咱们只要把这个PPT。
11:16
一看明白,那你就知道什么叫做派生指标了,来,那现在我把这个PPT点开,咱们一起来看一下。来,大家来看我这儿是不是有一个公式啊,对吧?我这个公式是什么?是派生指标等于原子指标加上统计周期加上业务限定,再加上统计力度,诶那这就是所谓的派生指标的一个定义公式,你会发现是不是原子指标,诶是不是属于是派生指标的一部分啊,对吧?好,那接下来咱们继续往下看,那这个统计周期是什么,业务限定是什么,统计力度是什么,咱们现在是不是完全都不知道对吧?没关系,通过一个具体的例子,大家一下就明白了,来咱们往下看,大家看。这实际上就是这这实际上是我们一个真正真正意义上的一个就是明确的完整的统计指标了吧,对吧,你看它是什么,是不是一个什么,最近一天。
12:08
对吧,什么各省份手机品类订单总额,你说这个指标它明确不明确的,这是一个明确的,只要把它给我们,我们就知道我具体要算什么了,对吧?这是一个明确的完整的统计指标,OK,那同时呢,它也是一个非常非常典型的所谓的派生指标啊,那完了之后,你要知道所有的派生指标,它是都能够通过一个这样的公式去定义出来的,OK,好,那接下来我们就来看一看啊,这样的一个派生指标,我到底如何用这个公式给它定义出来,好,那首先我们自己来给它拆一拆,自己给它分一分啊好,那你说这个指标当中,原子指标应该指的是什么?是不是就是订单总额对吧?订单总额就是咱们所定的是,那这个所谓的统计周期呢?大家想想应该是啥,最近一天对吧?你看啊,我现在我都没说统计是周期是什么,大家是不是也能反应过来,最近一天就是统计周期啊,对吧,为啥?因为往往统计周期是跟什么相关的,时间嘛,对不对,这里边是不是跟时间相关,就是最近一天对不对?OK,我们先理解到这个层次啊,后边我再深入的去去给大家说这个统计题到底是啥?咱继续往下看,后边还有一个所谓的业务限定,对吧?限定限定是什么?限定往往是不是一个限定条件呀,对吧?OK,好,那你看我们这里边谁是限定条件?手机品类吧,品类为手机,这是不是就一个所谓的业务限定啥意思,因为我这儿我只需要算手机品类的,别的我不算对吧,这是不是就是一个所谓的限定条件啊,对吧?好,那就来继续往下看最后一个统计力度,谁是统计力度?哎,其实这个力度啊,往往是跟什么相关的来着。
13:42
行对不对,是不是跟行相关呀,对吧?好,那我问一下大家,你说这个所谓的统计力度是谁的行,它指的是谁的行,那很显然是不是就应该是咱们这个统计结果的行对不对?好,那你想一想,这个统计结果将来你每行指的应该是什么?应该是一个省份嘛,对,因为你要统计的是各省份的什么什么东西吧,对吧,是不是一个省一行对吧,所以说咱们这儿的统计力度其实就是啥呢?就是省,对好你会发现啊,那我这样的一个统计指标是不是就可以通过这样的一个标准的公式给它定义出来,对吧?然后大家现在呢,可以体会一下那个所谓的指标定义标准化的这个概念,你看啊,好,那完之后我假如说我现在有很多这样类似这样需求,对吧,我让他都通过一个这样的公式去定义,那你说这个出现奇义的这个可能性是不是就不太大了呀,对吧,是这样的啊,你之前用文字描述我可能会有奇义出现,对吧?但是我通过这样的一个公式去描述,这个歧义就不大可能会出现了,哎,是这样的,这就是所谓的指标定义标准化,所有的指标我都让他通过一个这样的公式去定义,哎,这就标准了嘛,对吧?OK,那接下来咱们继续往下进行啊,刚才呢,我们通过一个这样的例子,简单的体会了一下,什么是原子指标,什么是统计周期,什么是业务限定,什么是统计力度,那接下来呢,我们再深入的去理解一下这个每一个部分。
14:58
啊,好,那接下来我们继续往下进行,首先得先知道,就是这些东西是用来干什么的,是用来是不是定义咱们这个指标的,对吧?他们是这个指标定义当中的一部分嘛,对吧?这是一部分,这是一部分,这是一部分,这也是一部分,对吧?好,我们来看一看每一部分它到底负责的是什么工作,来一个一看,首先我们先看原子指标,原子指标刚才咱们其实已经讲过了,对吧?原子指标它能够帮我们去定义这个指标的什么内容来着,能够帮我们去定这个指标的是不是所需的业务过程对不对,还能帮我们定义哎所需的度量值和聚合逻辑,这是不是就是原子指标对于定义这个指标的一些意义啊,对吧?哎,这个应该是能想明白的。好,接着往下走看统计周期,那你想想统计周期能帮我们定义这个指标的什么东西来看一下,那它实际上呢,是能够帮我们去限定我们去做这个指标的时候的一个是不是统计时间范围的呀,对吧?啊是这样的,OK,好,那我先讲下这个所谓的。
15:58
时间范围是指什么的时间范围?
16:02
时间范围是不是肯定对某一个时间进行限定了,对吧,它限定的是什么时间。对这儿而言,他限定的是什么时间,最近一天指的是什么的最近一天,限定什么的最近一天。是不是应该是限定最近一天的订单呀,没问题吧,OK,话说的具体一点,他应该是对什么的限定呢?是对下单时间的限定,但是是不是这个道理,没问题吧?OK啊,那在这块我们再给他,呃,就是往广义上去说呢,哎,这个所谓的统计周期限定的应当是什么?应当是咱们这个指标所对应的业务过程的那个时间维度吧,没问题吧?OK,那假如说我这儿让你统计的是下单那个总额,对吧?那你这时统计周期你现在就是下单时间,那如果我这儿让你统计的是什么呢?比如说是支付总额,OK,那我这个统计周期我现在应该就是啥?是不是就是那个支付的业务过程的时间维度,也就是支付时间呀,对不对?这1.1定要搞清楚好了,那这就是所谓的统计周期,那实际上大家可以琢磨琢磨,你说这个统计周期跟这个业务限定是不是有点类似?
17:07
它俩其实都是什么?都是限定条件,对不对,只不过统计周期它是特定的,是对谁的限定,是对时间的限定,而业务限定它可以是一个什么,是任意一个限定条件吧,对不对?在这儿呢,我可以说我对手机的品类进行限定,你如说我有没有可能会对手机的品牌进行限定的,比如说我只统计一个小米品牌的,有没有可能也有可能啊,对吧?那所以说那统计周期跟业务限定这两个概念咱们得能够区分开,他俩其实说白了都是限定条件,只不过统计周期特指时间限定,而业务限定呢?哎,是对任意一个维度属性的限定都可以,哎,这个理解一下啊,好,那接来往下走,那这就是咱们这个业务限定啊,OK,好,那现在咱们来琢磨琢磨,实际上呢,统计周期和业务限定将来啊,咱们再去写circle的时候,因为你这个指标是最终需要通过一个circle去计算出来,对吧,OK,那业务限定。
18:00
它往往位于我们circle索当中的什么位置?是不是VR过滤当中没问题吧,你想啊,你要想去算这个指标,你是不是得把最近一天的下单记录找到,你得把品类就是下单商品,那它的那个所属的品类是手机的时候得找到,对吧?那所以说这个所谓的限定条件就对应我们将来去写这个,诶统计SR的V过滤条件,这一点大家能不能想明白,你得能够对应上才行啊,好了,那这个实际间就是统计周期和业务限定,那他俩更深层次的一个意义,好,我们继续往下看,再看统计力度,那这个统计力度我们应该怎么理解呢?很简单,你说它对应的应该是我们写那个三当中的哪部分。应该是葛入外分组吧,大家说是不是这个道理,哎,其实很简单啊,你想啊,你要想算各省份的这个什么手机定单总额,你得干啥,你是得把同一个省份的这个下单记录是不是给分到一组,然后进行一个聚合运算啊,对吧?那所以说诶,往往统计力度对应的就是我们S索当中的分组字段,诶这一点大家一定要给他搞清楚啊,好了,各位同学,那截止到现在呢,哎,我们这个派生指标的定义公式咱们就讲完了,然后呢,这个公式当中的每一个部分,他们更深层次的意义咱们也就说完了,其实你琢磨琢磨啊,就是如果我们能够把一个指标用这样的一个标准公式定义出来,那对吧,你只要能定义出来之后,那其实你是不是基本上就已经知道这个指标怎么去计算了呀,当时是不是这么回事,你琢磨琢磨啊,首先那原子指标是不是已经规定了,我们在这儿需要用到什么,需要用到哪个业务过程,说白了就是哪个实时表了,对吧,你需要用到哪个度量值,这个时候都已经确定下来了,对不对,那我后边呢,我的统计周期。
19:41
业务限定,我的统计力度也已经帮我们确定下来什么东西了,就我们需要用到什么维度了。你琢磨是不是这么回事,前面咱就讲过,我们写三的时候,我们的V过滤,我们的分组字段往往就是什么来着,维度属性吧,对不对,你是不是就是按照维度属性进行分组啊,对,或者是按照维度属性进行过滤啊,对吧?那现在咱们的统计周期业务限定对应的是不是就是外部过滤条件,那这个所有的统计力度对应的是不是就是分组葛如外啊,对吧?那所以说那通过他们我是不是就已经知道了,我这需要用到什么维度了,对吧,你需要用什么维度,是不是就拿到相应的实值表相的维度,是不是进行一个关联,那就完事了,对吧?那之后我们应该怎么做呢?是不是按照统计周期和业务限定进行过滤,再按照统计力度进行分组,再对我们这个事实表当中这个度量值是不是进行一个相应的聚合,那就完事了,对吧,这个指标是不是就已经能算出来了呀,对吧?OK,那这实际上呢,就是诶咱们这个派生指标的一个诶基本的定义,OK,好,说白了派生指标那它其实就是一个定义的公式,对不对?OK啊那呃,完事以后大家再来思考一下,就我们前面讲过说原子指标它不对应实际的。
20:48
统计需求,因为一个原子指标,它不是明确的,对吧?那问一下大家,你说派生指标会不会对应实际的统计需求呢?这个会不会会呀,对吧?因为一个派生指标,你会发现它是不是本身就是明确的,就是完整的呀,对吧?诶所以说派生指标是会对应实际的统计需求的,这一点咱们大家得体会一下啊好了,各位同学,那截止到现在呢,派生指标它到底是啥意思,咱们也就搞清楚,那接下来我们再来往下看啊,下面一个概念呢,叫做衍生指标,为什么还会出现一个衍生指标的概念呢?来咱们琢磨琢磨,你想一想,你说我们将来要做的这个具体的指标,它可能都像这样的指标这么简单吗?
21:26
这个时候是是不是非常简单啊,对吧?如果我们将来要做的指标都这么简单,那那肯定是太美好了,对吧?但是显然我们要做的真正的指标不可能都这么简单啊,这样呢,那可能会有一些更加复杂的需求,这些更加复杂的需求呢,我用一个派生指标的公式,可能就没有办法去定义了,对不对?那所以这时候呢,才会诶衍生出一个新的概念,叫做衍生指标,诶那这个衍生指标到底又是什么呢?我们来看一眼,所谓的衍生指标呢,指的是在一个或者是多个派生指标的基础之上,通过各种运算逻辑复合而成的,对不对?那什么意思呢?说白了,所谓衍生指标就啥?哎,这个指标它的计算逻辑比较复杂,对吧?那我用一个派生指标,我可能我是不是定义不出来啊,对吧?OK,那我就需要怎么做呢?哎,那我就需要用一个或者是多个派生指标,是不是再进一步的运算,是不是才能得到一个这样的所谓的衍生指标啊,对吧?诶是这样的啊好,那接下来咱们就来看一看这个所谓的衍生指标到底长什么样,来,我把这个打开,咱们一起来看一下。
22:27
好,大家看啊,那前面这是一个所谓的衍生指标,后边是不是咱那个派生指标的计算公式啊,对吧?好,那现在我们来看一个具体的案例,大家看诶,我这儿有一个这样的需求,这个需求是什么呢?什么最近三十日各品牌退货率,诶那大家想想,你说这个指标它到底能不能用一个派生指标的公式定义出来,也就是说,换句话说,它能不能作为一个所谓的派生指标,它能不能作为一个派生指标?就是能不能作为一个派生指标啊,这个大家怎么去看,怎么去看,你想一想,如果是一个派生指标,我肯定是能怎么算出来的,我是不是能够通过一张事实表对不对,然后呢,进行分组聚合,直接得到结果,派生指标是不是都能这么去算啊,对吧?刚才我们已经分析过了,那所以说你去判断一个指标,它到底是不是一个派生指标的时候,你只需要去琢磨琢磨它到底能不能直接通过一张时表聚合得到就完事了,你想想它能不能通过一张实表聚合得,这个显然是不能的,对吧,为啥你想啊,他让我们觉得是什么什么,最近三十日各品牌退货率,你哪张事实表我直接聚合,我也得不到一个退货率这样的一个概念吧,对不对?那所以说这个显然它不是一个派生指标,好,那不是派生指标,那是应该就是一个所谓的衍生指标,对吧?那我们前面提到过,所有的衍生指标,它都可以通过一个或者是多个派生指标,是不是进一步运算得到啊,对吧?好,那我们就来分析分析,你说它依赖的派生指标应该是谁呢?
23:56
你琢磨琢磨啊,你要想知道他依赖的派人指标是啥,你得知道这个退货率怎么算才行,对吧?那那退货率咱们怎么算呀?哎,其实退货率咱们是这么定义的,我们前面已经说过了,是不是,诶比方说某个品牌对吧,我的哎退单次数啊,对不对,是50对不对,那我的下单次数呢,比如是100,那我的这个退货率是不就是50%啊,对吧?啊就这个意思,这就是所谓的退货率,那所以说你要想去算退货率,你得先把什么求出来,是不是得先把最近三十日各品牌下单次数求出来,还得把最近三日品牌是不是退单次数也给他求出来呀,对吧,那求出来之后,他俩一比,是不是就得到了这个所谓的退货率了,对吧?好,那完之后咱来分析分析,你说这两个东西,这是不是派生指标。
24:42
这个应该是吧,还是那个判断标准,你就看他能不能直接通过一张师表聚合得到,能得到是不是就就是一个所谓的这个派生指标,对吧?那这个能不能呢?显然是能的,既然能,那是不是就能够用这样的一个公式给它定义出来啊,对吧?好,那现在咱们来看一看怎么定义啊,首先我们先猜一下原子指标,那这个原子指标应该是谁,是不是下单总次数就是它的原子指标啊对不对?OK,那它的统计周期呢?最近三十日吧,那它的统他的业务限定是什么。
25:09
各品牌是业务限定吗?不是一个品牌显然是统计力度,对吧?那他的业务限定是啥呀?没有业务限定啊对不对,他这并没有说,诶你只能给我统计,比如说手机分类的啊,或者是其他分类,它有这样的限定条件吗?没有没有的话是不是都算呀,对吧?那所以说没有现会限定也是可以的,好那么之后统计力度是不是就是各品牌啊对吧?这个理解一下好进下来的下边这个我就不用多说了吧,对吧?原则指标就是退单总次数完了之后呢?诶,我的这个统计周期就是最才是同样没有也有限定统计力度同样是品牌好了,那OK,那这样一来的话,那现在我们是不是就已经搞清楚了这个所谓的衍生指标的这个概念了,对吧?OK,什么叫衍生指标呢?哎,就是假如说有些指标OK,我的计算逻辑比较复杂,我没法直接通过一张市值表聚合来对不对,那OK,那那他他这时候呢,它就不能对应一个派生指标了,对吧?那他可可能需要怎么做呢?是不是对应一个或者是多个派生指标,然后呢,你需要用这一个或者是多个派生指标,是不是再经过进一步的运算才能得到啊对吧,那这样的指标我。
26:10
就称之为衍生指标,这就是一个典型的衍生指标啊,好了同学们,那到目前为止呢,呃,我们这个,呃,构建指标体系需要用到的三个概念咱们就搞清楚了,分别是原子指标,派生指标和演示指标,这些东西咱们就都已经搞清楚了,搞完之后呢,我把这个视频停一下啊。诶诶,好,各位同学,那咱接下来呢,就继续往下进行,那现在呢,我们已经知道了这样的三个基本概念了啊,那完了之后呢,我就,哎直接告诉大家啊,就是我们将来构建出来的这个所谓的指标题是什么呢?啊,其实说白了啊,我们将来构建的指标题就是这样的,你需要把我们将来所有的这个指标,所有的指标,将来我们是不是会做各种各样的一个具体的指标啊,对吧?OK,你需要用这样的原子指标,派生指标和衍生指标的这样几个概念给它定义出来啊,因为你想啊,是不是有的指标可能直接本身就比较简单,它是不是直接就对应一个什么。
27:08
对应一个派生指标对不对?那你需要用派生指标的公式把这个指标给它定义出来,没问题吧?好,那接下来接着往下走,那我下边是不是可能有些指标它计算逻辑比较复杂对吧?那复杂它可能是不是就是一个衍生指标对吧?那衍生指标是不是会有它依赖的派生指标对吧?啊,那完之后你需要找到它依赖的派生指标是谁,那找到之后是不是还得把它依代的派生指标用这样的一个公式给它定义出来,对吧?那我们把所有的这个真正的统计指标用这样的指这个原子指标加派生指标加衍生指标这样的一套公式给它定义出来之后呢?那我们得到的这个东西就是所谓的指标体系,诶,这就是咱们所谓的指标体系,诶,OK,那接下来咱们继续往下进行,那现在呢,我们先不去看这个指标体系,最终它长什么样啊,咱们先继续往下,咱们先来探讨一个问题,什么问题呢?就是我们构建出来的这样一个所谓的指标体系啊,它对咱们这个所谓的数仓建模到底有啥意义?
28:02
哎,前面说了啊,这个在在这儿这个指的这个数仓的建模指的是谁?指的是DWS层的建模,对吧?那就是指标体系对DWS到底有什么意义?来我们往下看,这儿分析的其实是比较到位的,咱们一起来看他说通过上述的两个具体案例我们就能够看出来,看出来啥绝大多数的统计需求都能怎么样,都可以使用原子指标对吧?派生指标和衍生指标这套标准去定义,大家说是不是这么个道理啊,对吧?OK,那简单的指标我可能直接就用一个派生指标定义出来了,那复杂的指标呢,我可能需要用到是不是多个派生指标去定义啊,对吧?OK,那也就是说绝大多数的指标我都能够通过这样的一套公式去进行定义,诶,这个没问题,OK,那继续往下走,同时我们能够发现这样的一个问题,什么问题呢?同时我们能够发现就是这些统计需求都直接的或间接的对应一个或者是多个派生指标。大家琢是不是这么回事儿,你看啊,简单的指标我可能本身就是一个派生指标对吧?复杂的指标呢,我可能是不是依赖一个或多个派生指标对吧?所以说所有的需求都跟一个或者是多个派生指标是有关系的,这一点大家应该是能够想明白的,对吧?好,那完了之后呢,咱们继续往下进行,往下走,那所以说当统计需求足够多的时候,必然会出现一种情况,什么情况呢?就是部分统计需求对应的派生指标相同的情况,大家想想可不可能出现这样的一个情况,可能对吧?你比如说举例子,那我这儿呢,有一个复杂的需求,对吧?那我需要用到A派生指标和B派生指标,对不对?OK,我现在又来了一个需求,对吧?这个需求呢,诶,我也用到B这个派生指标了,然后呢,还有C那个派生指标对不对,是不是可能会像这样的一个情况,对吧?OK,那也是会出现诶不同的需求依赖相同的派升指标的情况,那我现在问一下大家,你说我这个不同的指标依赖。
29:57
派的这个相同的派生指标,就是我们在设计DWS层的时候要找的什么东西,那个公共的中间的统计结果吧,没问题吧,OK,那这实际上就是我们要找的公共的中间的统计结果,那所以说只要我们找到了每一个需求,每一个指标所依赖的那个相同的派生指标,我们就相当于找到了那个公共的中间的统计结果了,你只要找到这个公共的中间统计结果,那我们是不是就知道在DWS层应该保存什么样的数据,应该建什么样的表呀,对吧?诶,那这实际上就是这个所谓的呃,这个指标体系对于我们这个诶DWS层建模的一个指导意义,对吧?所以说从理论上来讲啊,我们去构建这个指标体系,是不是对咱们数据仓库DWS的建模是有很大的帮助的呀,对吧?诶是这样的,这一点咱们先得先得先得给他想明白才可以啊好想明白之后呢,我们继续往下进行,那下边我们要做的工作就是什么呢?就是咱们得实际的去体会一下,对吧,我到底怎样去构建体指标体系对吧。
30:57
构建体指标体系之后呢,我到底怎样把那个公共的派生指标找到,对吧?找到之后我到底怎样在DWS层建表,这是不是应该是咱们现在要做的一个从头到尾的一个系统的工作呀,对吧?那下面我们就来体会一下这个环节到底如何落实理论咱们基本上已经讲完了啊,来视频我停一下。
我来说两句