00:00
来这是DWT层的表对吧?来我们先把这个前面句先粘出来,粘出来之后呢,咱们先了解一下这个表的结构啊,我们再说这张表我们需要有哪些注意事项,哎,咱们先看一下这个表结构,呃,DWT层的表呢跟呃上午咱们讲的那个啊会员主题那DW表那个要求是一样的啊,那这张表也是没有分区的,对不对啊,也没有分区。啊,然后呢,正常情况这张表是不是也应该是全量表,对不对啊,当然我不是咱们那种分区的全量表啊,不是那种啊在这块这个所谓的全量指的什么?咱们得要求这张表当中是不是得有全量的信息呀,对吧?那在这咱们是什么主题,是设备主题,那按理来说这里边是不是应该有全量的设备信息,对,一行一个设备,一行一个设备,没错吧?啊,这是咱们走要求的啊,完事了,你要想要求有全量的,那你第一天就得怎么做。就得初始化对不对啊,咱们先先考虑到这一点啊,行,那这个一会咱们再说,那现在呢,我们来看这张表当中,一行数据就是一个设备对吧,或者叫一个访客啊,一行数就是一个设备,一行数一个设备啊好,那再往下走。
01:09
这张表当中字段有哪些?那前三个字段就是那个设备ID,设备型号,设备和设备品牌对吧,这个不用多说了啊,那接下来看我们这个累计值的有啥。啊,这个累计值呢,我们只有这样的几个啊,一个是当日的活跃次数,其实这个当日活跃次数放在这儿其实没必要啊,为啥?因为当日的活跃次数咱们在哪儿就有了。在DWS层是不是就有了呀,对不对,所以这个字段其实并没有没有必要放在这儿啊,但是你放在这儿其实也无所谓啊,也无所谓行,那这个咱们呃,随意处理一下就行,然后下边这个login count,这个啥是累计活跃天数吧,这是咱们那个累计值,这是那个累计值啊,其实这个累计值就这一个啊,然后下边呢,还有俩时间啊,一个是首次活跃时间,一个是末次活跃时间,是不是跟咱们上午那个会员主题表是一致的呀,对吧,这是这张表的这个结构,咱们介绍完了。
02:03
好,那介绍完结构之后呢,我们就来考虑一下,咱们往这张表里导数据需要注意哪些事儿啊,那首先就是关于这个初始化的事儿,那因为它是DWT层的表,那咱们是不是也得考虑初始化对不对啊,那这个说完初始化之后,那后续我每天是不是还得啊这个每天重复执行某某些逻辑去更新这张表啊,对吧?那后续每天重复执行咱们应该怎么做呀?是不是还是一样的道理,先拿到谁先拿到,当这张表现在的这个也是原来的数据,历史数据先拿到对吧,然后呢,再把什么,再把今天的哎活跃的这个设备信息是不是拿过来,他俩做一个全外联,然后呢,该修改的修改啊,需要保留原来的值,就保留原来的值,然后呢,再给它放回去,是不是就可以了,是不是也是一样的道理啊啊好,那这个接下来咱们就来啊一点点分析啊,咱们现在先说啊初始化,先说它的初始化应该怎么做。啊。
03:00
诶,既然要初始化了,那咱们必须得搞清楚这个表它的数据来源是什么?数来源应该是啥?应该是日志吧。是不是应该是咱们的用户行为日志对不对,那既然是用户行为日志,那我们前面提到过啊,对于日志这个东西怎么来的,是买点产生的对不对?那买点我们一般情况下啊,就是没有数仓的话,那业务系统很有可能是没有买点这个东西的,很有可能是没有的啊,不排除某些系统本身就有啊,但即便有可能他信息也不全。啊,咱们就假定,哎,没有这个买点之前,之前没有买点,那是不是就没有原来的日志啊,对不对,没有原来的日志,那这个东西咱们是不是就没有办法去做初始化对不对?诶那这回问题出现了,这张表咱们做不了初始化。啊,那要做不了初始化的话,那会对咱们这个表当中的数据有什么样的影响呢。
04:00
嗯,其实有影响的,你说谁会有影响啊。其实主要就是首次活跃时间。对不对,你对于末次的,那你是不是从数仓开始搭建之后,那你只要哪个设备你当天活跃了,就把你的末次活跃时间是不是射程咱们当天就行,对不对,那累积活跃天数呢?当日活跃次数这个无所谓啊,这个很简单,那说这个累积活跃天数,累积活跃天数呢,因为没有原来的值对吧,没有原来的值,那这个咱们没办法,你就从哪一天开始记就行了呀,就从咱们数仓搭建开始记,是不是就可以对不对,那关键是这个首次活跃时间。这个值如果没有初始化的话,那咱们前面分析过,其实它的更新逻辑跟咱们那个U的主题那个更新逻辑是不是应该是一样的呀,对不对,也是做新旧对比,然后呢判断,如果old没有你没有你,那你的首次活跃时间是不是就是今天对不对,那那现在呢,我们这张表做不了初始化,做不了初始化是不是第一天的时候咱们O里就没有东西啊,没有,那是不是所有这一天的活跃设备都会作为今天的新增设备啊,啊因你的首次回执都是都是今天,而且你后续因为你这张表啊,因为哪,因为你这张呃,DW TUV topic,因为没有做初始化,所以说你这张表里是不是,呃,很长一段时间,这张表里边是不是都是。
05:22
没有全量的设备的呀,都是没有的,没有你后续是不是所有用户的那个什么首次活跃时间是不是都有可能不准确呀,都可能不准确,那这样一来麻烦了。那这个怎么处理?其实主要就是个首次,首次回时间这块。那咱们有没有什么办法可以让它准确一点呢?嗯。有没有什么办法可以让他准确一点呢?啊,有没有什么办法啊。这张表做不了初始化,这个是已经是一个既定的事实了,对吧?啊,咱们做不了初始化,它就是做不了没办法啊,那做不了的话,那我们能不能在就是说啊做不了初始化的这个设定之下,能够将咱们这里边儿的这个首次活跃时间能够更准确的去获取。
06:12
啊,能够获取啊,这个首次会议时间。啊。可不可以?啊。能不能行?首次会议时间。诶,那这块呢,咱们大家空想肯定是不好想啊,肯定不好想,那这时候呢,给大家去看一个东西啊,看一个东西啊来我先把视频录一下吧。
我来说两句