00:00
好,那咱们在周三的时候呢,讲了这四个需求对吧,其实呢,他们之间都不难啊,都是求一个什么,呃,访客数啊或者用户数啊,像这些东西呢,无非就是说我们要做到一个按照mid或者u zid做一个去重。对吧,啊,咱们就是要做这个驱虫,那这个呢,我们也都学会了,无论你是按天去重。还是整体上去去找,那都是要用的这个状态编程的啊,那如果说我们只有这种。每日的这种指标对吧,那这个状态变成那里边状态呢,我们可以设置一个一天的。TTL。对吧,不需要跨天啊,那除非我们当然还遇到一个什么呢,用户登录需求当中。有一个什么。七日回流。对吧,以及当天的。独立访客数。
01:00
啊,那如果说这样的需求,当天的独立访客数,其实就比较简单,还是一样的,对吧,如果按呢,求它还是状态变成如果状态等于呢,或者状态保存的日期与今天不同,那么我就是这就是我们要的数据,否则这个数据就不要不用写出去。对吧,啊,但是呢,又多了一个七日回流,那也就是说咱们对于这个状态呀。就不能够说哎,存一天,然后呢,过了这一天把它删掉,不能这样干了。对吧,因为你要做七日回流,那七日回流呢,就是说他呢,以前登录过,中间隔了七天或者七天以上,至少隔了七天对吧,没有登录,然后呢,今天又登录了,这个才能算作是今天的一个叫回流用户。啊,那类似于这样的一个需求呢,我们没办法了。我们只能干什么事?把这个状态永久的保留下来。啊,你不能说隔了一天删掉,如果隔了一天你把它删掉,那永远不会有这个七日回流用户了,他不可能说大于七。
02:04
对吧,你最多他俩差相差是一,因为你过了一天的话。没有数据来,那数据被删掉了,所以就是这个呢,就不需要去。删这个状态对吧,给这个状态设置TTL啊,那如果说只有每日的这种指标,那你就可以设置TTL,它的方式呢,跟前面我们所写过的方式都完全一样,对吧,我们已经写过很多次了啊,就不用着重的去聊这一块了,那后面呢,就是你正常的去。开窗对吧,提取实验时间开窗聚合,然后呢,窗口聚合对吧,用两个一个呢是怎么样来一条聚合一条,接下来呢,是这个全量。对吧,补充这个窗口信息啊,就是这两步,最后呢,把这个数据写到克house里边啊,那这四个需求呢,其实都是这样子的啊,比较快。对吧,啊,也比较简单啊,所以然我们当时也写的会比较快一些啊,这个就没什么太多可说的,这四个需求呢,其实都是这样的一个情况,对吧?呃,页面浏览用户登录这个里边就刚才说了,其实回流啊,他那这个状态你不能设置为TTL了,用户注册这个需求太简单了,因为。
03:13
注册数据连驱虫都不用。我们DWD层呢,从用户表当中拿的是音色的数据,只要这个新增的,那当然是一个注册用户了,对吧,不需要驱动,他也没有什么重复的啊,那后面呢,是那个加购。啊,加购唯一的点呢,就在于这个时间问题对吧,因为我们前面呢,考虑到他可能有的公司啊,会将。修改的数据,诶,那你以前呢,是三三个就加购了三个商品三件对吧?啊,那现在呢,你做了一次修改,诶把它改成了,我又追加了两个,他可能在原本的购物车的基础上,把这个三变成了五。对吧,但是有的公司呢,可能会另外有一条数据,诶有一个专门的三,有个专门的二这两条数据,那如果两条数据的话,你只要新增前面这率,只要新增就行了,对吧?那如果考虑到未来公司有可能会出现,诶之前是三,我现在把它改成五,那也就是说我们的更新数据有一类我们也是需要的。
04:16
就是如果你是更新数据,且。你加购的这个数量。增长了,那么这类数据呢,我们也把它算作是加构数据,所以在提取这个时间的时候,咱们要注意。我们不能直接用这个create创建时间了。对吧,啊,那考虑到如果这个。操作时间不等于呢。那我们就用操作时间。对吧,否则用创建时间这块有个问题我也跟大家解释了,大家有可能在想,那你操作时间它不等于呢,那万一呢,我是这种数据呢,我是你加购之后我下订单了,对吧,我也是一个修改这个要注意这种数据呢,它不会进到我们DWS层这儿来。
05:04
因为前面在DWD层的时候,我们不光要了新增或者更新数据,对于更新这种情况呢,我们要求他怎么样,它是数量涨了。啊,它数量涨了。对吧,所以我们要的更新数据呢,其实也是属于这种架构数据,那我们就直接可以判断,诶,它的操作时间如果不等于空,那我们就直接用操作时间,除非你等于空了,我们就用创建时间。对吧,我们场景时间这要注意一下啊,那实际上会有这样的数据,会有什么数据呢?就是说没有修改这个。SQ。修改的是其他的,比如说it audit对吧,是否已经下订单过了。那这种数据呢,它是不会进到DWS层的,能明白吧?啊,所以我们就不用考虑了,只要你是更新数据,那么我们就用这个time就行了。对吧,否则都用这个创建时间啊,那这个需求呢,唯一的点就在于这儿跟前面有所不同。
06:07
对吧,好,那这个你要。注意的点。啊,就是它里面的一个细节。这个就是你对业余比较熟悉,或者说呢,你做DWS层的时候,你一定要注意,你要。去时刻了解一下DWD草,它应该是什么。对吧,它是什么样的一个数据格式,OK吧?啊,所以呢,你这个就比较清楚,你DWD层怎么来的,你一定要注意看一下这个数据,对吧,怎么过滤过来的,你要的是什么数据啊好,呃,那这是我们周三所讲的全部的内容啊,整个的Co呢,没有什么太大的难度,对吧?因为已经是到了写重复代码了。啊,几乎都是重复的对吧。
我来说两句