00:00
好,在我们开始访客主题表的数据装载之前啊,我们先来看一下这张表当中的一个字段啊,就是这个1NEW字段啊,那这个字段呢,相对来说比较重要啊,所以在这儿我们特殊的说明一下啊,好,那我们现在先明确一点啊,就是这个字段它的作用是什么。啊,实际上它的作用呢,我先告诉大家啊,是辅助我们判断新增访客啊,那我现在提到了一个新增访客对不对,那与之相对应的呢,实际上还有一个新增用户啊,那这是两个非常基础,但是有很重要的统计指标啊,那在这儿呢,我们先分析一下这两个指标的具体思路啊好,那首先我们先来分析一下新增用户啊,那一般情况下我们是怎么去统计新增用户的呢?一般情况下啊,这个业务系统的数据库里边都会有一个用户信息表啊,那这张表当中呢,它会保存从开始至今所有的用户的信息,那当然这些信息当中呢,就会包括一个创建时间。那其实就是用户的诶注册时间对吧?那所以说我们一般情况下呀,就可以根据这个用户的注册时间去统计新增用户啊,那具体怎么做呢?举个例子啊,比如说我们现在需要统计2020年6月14号的新增用户数啊,那我们怎么做就可以了,是不是只需要把注册日期等于2020年6月14号的用户给它过滤出来,对吧?然后呢,再进行看统计是不是就完事了,对吧?那新增用户的统计一般来说比较简单啊好,那接下来呢,我们再来分析一下新增访客的统计,那新增访客一般怎么统计呢?
01:32
那好,我给大家来分析一下啊,那一般情况下啊,我们的访客记录是不是都是来自于买点日志啊,对吧?啊,那咱们的业务系统的数据库里边,一般情况下是没有访客信息表的,对吧?它它会有一个用户信息表,但是呢,没有访客信息表,然后大家还要注意一点啊,那就是我们的买点日志是没有历史数据的,对吧?啊那所以说这个新增访客的统计呢,相对来说就比较麻烦了啊,那接下来呢,我给大家说一下啊,就是本项目当中我们统计新增访客的具体思路啊,那首先哎,我们在买点日志当中增设了一个逻辑啊,增设一个什么逻辑呢?大家来看啊,在我们应用安装的首日啊,诶,会在其本地缓存一个e new属性。
02:16
啊,注意啊,是在这个,诶设备的本地缓存一个一字U属性啊,那该属性的值呢,在首日24点之前都是默认值一啊,那过了24点之后,那就会变为零,并且以后一直都是零啊,那我们产生的这个呃,用户行为日志当中呢,也都会带有一个一字news字段。啊,那这个一字new字段的值,注意啊,与本地缓存当中的值是一样的啊,什么意思?也就是本地缓存啊,这个一字new属性的值是一,那我产生的日志里边一字new字段的值也是一,那也就是在理想情况下啊,某设备应用安装的首日,其产生的所有日志当中的一字new字段是不是都为,那从第二天开始呢?那所有的这个一字new字段是不是都变为零了呀?啊对吧?其实就这么一回事,那后续呢,我们就可以借助日志当中的一字new字段去判断新增访客了啊,但是大家要注意啊,我们还不能完全根据日志里边的这个一字new字段去判断啊,咱不能说只要一字new字段等于一啊,那OK,我就断定它是一个新的访客,不能这样,为啥呀?诶,因为咱们只根据它去判断的话呢,会出现误判的情况。
03:27
为啥?来举一个例子啊,假如我们之前有一个访客啊,他对吧,他安装了我们的应用对吧?那可能某一天的时候呢,他把这个应用给卸载了对吧?那卸载之后过了一段时间啊,它又重新安装上了,对吧?也就有卸载又重装没错吧,那它重装的首日一字news字段是不是又会变为一加对吧?呃,但是呢,我们大家都知道,实际上它呢,不是一个新增的访客。没错吧,那这种情况下呢,就会出现误判啊,是这样的啊,那我们为了让这个判断更加的准确啊,那我们是怎么做的呢?诶,我们后边呢,会在DWT层,就是在下边啊,会在DWT层维护一个全量的访客表啊,那只要有新增的访客,我们就会将其保存到该表当中啊,但是大家要注意一下,那这个表呢,它并不能保证真正的全量。
04:16
啊,为什么不能保证真正的全量啊,那因为我们前面提到了啊,咱们的用户行为日志是没有之前的历史数据的,对吧?那所以说在这儿呢,我们只能随着时间推移啊,逐渐的去接近全量,那我们维护这个全量反客表的目的是什么?那其实就是为了多一层判断条件。啊,那我们有了这个全量访客表之后,我们再去判断新增访客的时候,那具体的判断逻辑应该是什么样的呢?OK,那我们来举一个例子啊,假如说现在我就要判断一个访客是否是今日的新增访客啊,那现在有了这个全量访客表之后,诶,我们实际上可以先怎么做呀,我们先检查一下这个全量的访客表当中是否包含诶这个访客,那如果包含那就简单了,那我们是不是就能够断定它不是一个今天的新增访客呀,对吧?如果不包含,那这会怎么办呢?诶,不包含的话呢,我们再去参考,诶,它产生的这个日志当中的一兹news字段啊,如果这个一字news字段的值是一,诶那我们就认为它是一个今天的新增访客,那如果一字new字段的值是零,诶,那我们就不认为它是今天的一个新增访客,OK,那这就是我们新增访客的判断逻辑啊,OK,好,那现在我们再回过头来看啊,看一下这张表当中的一字news字段啊,实际上这个一字news顿的值应该是怎么来的呀,它是不是应该是由一个设备?
05:36
那它一天产生的所有的用户行为日志里边的一字new字段汇总而来的呀,对吧?OK,那其实大家现在可以思考一下啊,那一会儿咱们这个汇总逻辑应该是怎么样的,那好,那当然这部分内容呢,是一会儿我们进行数据装载的时候需要去考虑的。
我来说两句