00:01
好,我们接着往后说啊,呃,刚才我们把这个DWD到这个DWS它的一个处理概要啊,我们简单给大家去分析了一下啊,但是呢,我没有说的很很没有说的很细啊,我们只是把一个整体的一个这个流程呢,给大家去说了一下啊,然后这个具体细节性的东西呢,我们放到这个每一个任务中来去说啊好,那么接下来我们就先来到我们的。第一个任务啊,我们要去做一个这个日活宽表啊,那你这个先明白一下,我们做这个日活宽表,我们将来要去统计什么样的一个指标啊。对吧,其实这个一开始我们也看过啊,就是我们想去出这两个图啊,第一个是。呃,当日日活的一个什么分时统计啊,就是你今天的访客数有多少啊,然后呢,还有一个是这个分时统计,就是你,呃今天的啊,还有一个昨天的,我们有个对比啊,就是在每一个时间点的时候,每一个小时的时候,你这个日活数有多少,对吧?我们会做成一个什么曲线图。好,这是一个要去做的。然后再一个就是我们会去做一下这个。
01:03
在这啊,做一下这个渠道日活啊,就是我们会按照你的某一个维度,比如说按照这个渠道。对吧,然后呢,去统计一下你的呃,日活数有多少,比如说你这个每一个设备对吧,每一个渠道你的日活数有多少,当然啊,这都是我们举的例子啊,你完全可以这么换维度。是不是可以画维度的,比如说你通过什么不同的这个省份呢?啊,或者说不同的什么这个呃,各种维度吧,都可以去统计的啊,行,这是我们最终要去做的事啊,那这个的话,我们最终出结果直接去看吧,啊现在我就先不跟你去说啊。OK,呃,那我们重点还是看一下这个任务的一个分析啊,就是我们在这个日活宽表中,我们会遇到哪些问题,然后我们需要去解决哪些问题。好,那首先第一个就是这个驱虫操作。啊呃,因为我们出日活的话呢,你要先明白我们从哪里出这个结果。对吧,就是我们需要通过什么数据来去做你的这个日活。
02:03
好,那按照我们刚刚这个分析啊,其实呃,我们还是把这个拿过来吧,这个图还是这个截个图啊,还是拿过来。好,来我们看一下啊。呃,将来我们想出日活的话,你想想啊,我们现在这个日志数据里面有什么启动的,有什么页面访问的,有什么动作的,有什么曝光的,有什么错误的。你说这几个哪一个是比较合适,然后去做这个日活统计的呀。啊,同学们。你分析来分析去,应该是什么这个页面访问这个是应该比较合适的吧。就是反正你只要你是访问过我这个页面的,诶,那我就认为。这个这个就可以怎么去做统计了呗,对吧,或者说呢,你当日有哪些活跃用户,那你怎么去认定这个活跃用户呢?那他一定是访问过我这个页面的,就你登录过我这个平台的,那我就认定你是一个活跃用户。
03:04
对吧,所以说我们就什么拿这个页面访问啊,来去出这个日火啊,那如果你是一个页面访问的话呢,你再想想啊,我的一个用户,假如说我今天呢,诶访问了你这个很多次,对吧,访问了很多次,而且每一次访问的话,我可能会访问很多个页面。对吧,那你说你这么多数据我都会进入到你这个页面,访问这个topic里面,那你说最后我统计日活的时候,你不就是一个人吗。那就说白了,我看到的是这一堆数据,但是呢,其实我最终想得到的结果呢,就是个一。那你看这里面我们就会涉及到一个什么驱虫操作。对吧,诶,就会涉及到一个驱虫操作啊,行,那么大家想一想,我应该怎么去做这个驱虫,就最终我怎么能够把这个一给他得到。好吧,来,这是我们会遇到的事情啊,好,当然这个驱虫的话呢,我们会有这个各种手段啊,这里面也提到了,我这个先不说啊,因为现在我们只是一个任务的分析,我们在具体写代码的时候,具体写到这个驱虫的时候再来这个。
04:02
呃,这个这个细细的去分析一下好吧,行,然后再一个问题就是我们需要做这个维度关联啊,需要做维度关联,这个维度关联是什么意思呢?就是你的这个页面访问中吧,页面访问中啊,你比如说包含了你的什么,访问了哪个页面对吧?诶这个页面的什么类型啊等等等等一些,然后呢,其中也会包含什么,你的用户的ID对吧?就是你的UID,还有什么这个。那个什么L,就是那个省份的ID。是不是会包含这些东西啊,呃,那我们将来再去出你这个指标的时候,很有可能哈,我是需要基于你的某些维度去做的,比如说我想按照你的什么用户的性别去做啊,按照你什么用户的这个年龄去做,或者说我想按照什么,按照这个地区来去做啊,不同省份来去做。那你想想。你光有这个数据,你将来再去统计的时候,你发现,诶我没有性别,没有年龄啊,我没有什么这个地区信息,那你就出不了这个指标,对吧,所以说呢,我们就需要什么,把你这个将来统计所有能够用到的数据都给他什么整合到一起。
05:06
那就相当于你要把你的这个,呃,原本的这个日志数据对吧,再加上啊,通过什么你里面的什么UID啊,哎,通过什么你的这个什么省份ID啊,去关联上我的这个维度。从维度中呢,把你将来用的什么性别什么什么年龄啊,对吧,什么这个地区信息全部给我什么关联到一起。那么生成一个什么,诶,非常详细的这个宽表数据。能理解吧,那我有了这个宽表数据以后呢,诶,那我接下来再去什么,基于你这个宽表数据,再去出我这各个出我的什么各个指标啊,各个各个什么统计啊,那就这个非常的方便。对吧,说这个维度关联啊,也是我们接下来会诶遇到的这个事情。OK吧,行好,那你这个关联完成以后啊,最后的话,我们还需要做一个事情,就是把这个数据呢,写入到你这个o lap里面。当然啊,这个我们目前是做不了的啊,因为呃,按照我们的规划,我们的o lap最后用的是这个ES啊,但其实这个ES的话我们还没有讲哈,所以说呢,我们就目前什么先做到把上面这个完成了就完事了啊,等最后数据呢,你都处理好以后呢,就差一个写入啊,那我们就等什么,等这个ES讲完以后呢,再回头呢,把它这个完成就可以。
06:19
好吧,说这个写到olp中啊,这个事情我们就先不聊,因为现在说多了,你也不知道是不是啊,你也不知道啊行,那就意味着我们整个日活任务来讲的话呢,主要就是两件事情,第一件事情就是把驱虫操作做好,对吧,然后把这个维度关联做好,然后你把这个事情都做好以后呢,诶就可以把数据呢写到我的o lap里面了。明白吧,这是我们的一个任务的一个分析,好行,那你大概知道了我们要做什么事以后呢,接下来我们就可以。开始去做了啊,首先的话,你先保证能够把数据呢,先给他消费出来,消费出来以后呢,诶,那你什么再把这个驱虫做了,再把维度做了。好吧,这样啊,这是我们的一个任务分析啊,呃,停一下吧。
我来说两句