00:00
好,接下来第五章呢,是具体的一个规划啊,那这个呢,其实我们已经做完了。对吧,我们已经做完了,就是我们上午所讨论的每个。层对吧,应该如何去分层,第二第一个对吧,第二个分层之后,每层到底存在什么地方,能够更好的去使用,这个我们已经做过了啊,当然这个具体的你真正的出这个指标的时候,那你要这样去做,对吧?了解这个业务过程啊,了解业务过程,了解详细的业务啊,然后呢,把这个维度拿到啊,最后呢,就明确这个我们大家过一下,明确数据域,诶那我们未来有哪些个域对吧?啊有这个交易域,它里边呢有加购下单。取消订单,然后呢,支付成功还有退单退款啊流量域。页面浏览PV对吧?呃,启动应用U为动作曝光错误相关的对吧?曝光曝光率,曝光点击数啊,曝光有没有用,因为特别曝光出来广告还是要收费的,像那些东西肯定要求对吧,它属于流量域里面的用户啊,注册登录,然后互动有这个收藏评价啊工具有这个优惠券的使用。
01:17
领券以及使用对吧,那领取优惠券以及呢,下单的时候使用,还有这个支付的时候使用这个优惠券,这是我们的数据域,之后呢,要构建我们的业务总线,这个就是把业务过程跟维表把它。关联到一起。对吧,选择我们每一个业务过程当中可能会涉及到的哪些维度。啊,构建这个业务过程啊,那这个呢,确定事实以后,我们就可以明确我们要做的一个指标了,因为我们的最终的指标实际上就是什么呢?就是维度加业务过程,因为业务过程其实代表的是什么度量值。我们之前说了,那你的实时表就是根据业务过程来的,而且问大家,大家说就是看这张表里面能不能取出来度量值,对吧,那我们有最终的指标,不就是维度加度量值嘛,对吧?那确定我们的指标最终呢,通过指标体系建设来构建我们的DWS层。
02:19
对吧,DWS啊,那这里边呢,上午我们也聊到了,有原子指标,它呢属于某一个过程的一个度量值,同时添加聚合逻辑,比如说我们举个例子GMV,对吧,它呢是用户下单的一个业务过程。度量值呢为订单金额均合逻辑为sum,但是。原子指标没有什么意义,就光单独的一个订单总额。其实它对于我们的指导意义不大,对吧,所以呢,我们还会有这个派生指标,加上统计周期,统计力度对吧,因为这个业务限定呢,其实我们加的会比较少。
03:01
业务限定其实会加的比较少,更多的呢,只加这个统计周期跟统计力度对吧,比如统计周期最近一天,诶力度呢是按照省份group back对吧,诶group back省份看一下每个个省份。他的。订单总金额是什么样子的,在最近一天内对吧,那这个就会有用啊,而最后呢,还有一个衍生指标,衍生指标呢,在我们指标的做的指标的基础上再进行加工诶复合而成。比如说最多的就是这个比例。比率对吧,这什么率什么率比例这两种呢,111听这个名字就知道它是一个比值。对吧,它A比上B,那这个呢,很明显A跟B呢,都是我们派生指标结果数据,然后呢,拿着这个结果数据在一除再次加工,所以叫复合而成的,对吧?通过这个过程我们得到了最终的衍生指标,那就各种率,比如说你求的一个叫呃。
04:06
复购复购的总人数对吧,复购率。有啊,还有那个。留存。留存的总人数。对吧,那求一个留存率是多少。啊,你光看人数不行,你还得看这个比值对吧,它到底是多少啊,你光有人数其实不能看出来更多的内容,因为你光有人数,你只能反映,诶你这个平台火不火热对吧?假如说你就是一个初创的平台,你不可能追求人数特别高,但如果你做了一个推广,新增了100个人留存率。90%对吧,诶,他留存了90个人,对于留存90个人,这个90这个数字其实并不大,但是留存率达到90%,说明我们。平台非常的吸引客户,对吧,只要但凡能够进到我们平台的,基本上呢,都能够留下来。
05:05
啊,那接下来我们的指导方向就是对于产品这块的指导方向是什么?我们要大力宣传,让我们的产品能走出去,让更多的人去了解,因为我们产品的质量这块没有问题,因为留存率对吧,都已经达到了百分之九十九十五。说明城市用我们产品的人大部分都能留下来,说明产品质量已经过关,对吧,那接下来更多的资金投入应该放到。推广把这个新增人数把它变多对吧,你看光有人数不够对吧,所以我们往往还会在这个人数基础上求一个什么比值比率,对吧,那这样的话才能给我们让我们产品能够更好的。发展输仓本质不就做这个事儿了吗?大家千万不要为了计算指标而计算指标啊,就是我们计算的任何一个指标,对未来都有指导意义。对吧,啊都有这个指导意义的。
06:02
是这样的一个情况啊好,那指标体系建设这个是构建我们的DWS这边呢,有整个的一个内容啊,我打开一下。对吧,这是我们在。做这个实时数仓的时候,列出来的我们的所有的内容。啊,所有内容因为实时啊,我们不可能说呃做完整的累加,我们要按天做,那都要开窗看见没。跟离线不一样了,离线的周期呢,肯定是天,这都写的是天,对吧,离线这写的都天,那我们这块呢是窗口,而且呢,这个窗口不是按天作为窗口大小的啊,并不是的,OK吧,好,这是我们所说的叫。业务总线对吧?呃,那接下来就是维度。模型。啊,就是维度模型,维度模型呢,就是正常的嘛,放到DM层就好了,对吧,把我们那些维表放出来就好了啊最后呢,汇总到一起啊汇总到一起OK吧,好,这是我们所说的数据仓库,整个的一个设计就是最开始是ods,然后呢通过维度建模把数据呢分成。
07:11
实时表跟为表之后呢,根据指标体系建设,形成我们的DWS,那DWS层把指标体系建设,你要知道你要做哪些表之后,我们接下来要做的一件主要的事情,就是说把我们的DWD层的表与我们DM层对吧,DWD它的一个事实表。与我们的DM层为表做一个关联,至于这个关联,我们是要用join还是用其他的方式,那我们再聊啊,在离线收仓里边,咱们用的是draw语对吧?在实时收仓,诶搞不好那就不会用draw语了,对吧?因为有可能这状语不好用了,对吧?大家都知道在Spark swimminging这个双流装影,大家都经历过这个痛苦啊,那是弗Li也是这样一样的情况,还是说他会更好一点呢?都有可能,这个不好说。
08:05
对吧,啊,都有可能这个不太好说啊,所以呢,咱们要一点一点的来聊这个事儿,但是现在呢,我们整体有一个。理解啊,好,这块呢,我们就带大家过了一下,我再次强调一遍,如果关于这几章内容,从第二、345这四章内容,对吧,有一些细节不太了解的,要回过头来把离线出仓那块理论部分再去看一看啊,这块呢,只是带着大家过了一下,相当于一个复习吧。
我来说两句