00:00
好,那上午呢,咱们是将我们DWD层第二个需求,也是我们日志数据的第二个需求,对吧,搞定了是咱们要准备这个。独立访客的明细。对吧,就是为了未来求这个UV做准备,其实最核心的在里面呢,我们要按天做到一个去重,对吧,我们要做到这样的一个事情,OK吧,好,那么接下来呢,我们搞我们第三个需求,求一个什么呢?叫用户跳出啊,其实也叫访客跳出了,跳出的一个实时表,对吧,也是一个明细。啊,跳出明细。好,呃,那我们。什么叫跳出呢?我们对于跳出是怎么理解的呢?大家可以把这个自己对于跳出。理解,然后呢,敲在这个公屏上啊,我看一眼好吧。
01:00
就是,呃,你们是如何理解这个跳出的?嗯。嗯。大家是如何理解这个?跳出的。啊,关于跳出它的一个说明。啊,退出会画只访问一个页面,其实在我们离线数仓当中,是不是也做过这个跳出的一个需求啊。对吧,啊,咱们也是做过这个跳出的需求的啊,那也就是说我们一次绘画当中。
02:03
只访问过一个页面对吧,好,跳出。一次。绘画中。直。访问过。一个。页面。对吧,这个呢,就是相当于那你看这是什么意思呢,我进到假如说京东啊,我进到京东这个平台里边了,然后呢,我没有做任何跳转,直接就。出去了。啊,我直接就退出去了。对吧,那这个呢,我们既做一次跳出啊,那为了给未来求这个跳出率啊,这些内容去做的,对吧,那其实这个需求的说明已经告诉我们了,怎么去做这个事儿了,对吧,那我们要找。按照绘画分组对吧,区里边只有一个页面的。这样的数据对吧,就是我们的目标数据吧,好,呃,这里面有一个问题在于什么呢。
03:07
嗯,应该说有两个问题吧,第一。我们呢,要按照绘画。分组这件事儿。我们有绘画ID吗?想一想。我们有没有绘画ID?没有。对吧,啊,那。好,第二个问题,就算我们有绘画ID,因为在离线收藏里边,咱们是不是也是没有绘画ID,但是呢,咱们自己做的还记得吧。咱们是不是自己造了一个绘画ID啊,在离线书仓里边对吧。我不知道大家有没有印象,是不是我们自己造的这个绘画一地了。
04:02
有印象吗?好,呃,那实时就算我们。有绘画ID。然后呢,我按照绘画ID分组,比如说啊,我要按照绘画ID分组,我要找到。一个绘画中只有一个页面的这种内容。那其实也有问题啊,什么问题呢,你看啊。你。没有换ID,这是一个点,就算有了,它是流失数据。对吧。它是一个流式数据。那我们怎么知道他未来有没有数据到呢?啊,我怎么知道他后面还有没有数据呢,对吧,假如说诶我呢,一次会话,第一个页面来了,啊,第一个页面我访问了一个首页,对吧。我访问了一个首页。
05:00
好,那这个时候这个对于这个绘画ID,假如说有绘画ID啊而言,它确实只有一个页面,但是我们现在是留,我怎么知道它后面还有没有呢。是不是也不行啊,也就换句话说。这两个问题挡在我们面前,对吧,第一没有破坏力,第二就算你有了,你也没办法这个确定这个会话它到底有没有结束,也就是说你也不知道他到底有几个页面对吧?当然如果说第二个页面来了,那好搞,那我这个数据呢,肯定就不要了。对吧,这个数据我肯定就不要了,关键就在于他没来,没来那是真的没有了,还是说现在没到呢。不好说吧,对吧,好,那我们得想其他的法子来解决这个问题,那怎么做。就是,呃,那我们就直接奔着没有绘画ID啊,就没有绘画ID,那我们怎么办。
06:02
他没有绘画ID,咱们怎么办?我们现在要的是一次绘画中只访问过一个页面,但是呢,我没有绘画ID。那我应该怎么办?在离线数量当中。有没有给大家去讲到。对吧。那这样啊,一般的在公司当中呢,会有这样的一个规定,因为我们知道。何为绘画?这个会话怎么理解,就是比如说我现在呢,进到这个京东页面了,对吧,我进到这个京东的首页啊。然后呢,呃,第一次登录吗?不能叫第一次登录吧,这个不对啊,我进到这个京东的首页了,好,然后呢,我连续访问,我访问这个商品详情页。
07:04
对吧,Good detail。对吧,然后呢,呃,加入购物车啊,看ADD啊,然后呢,这个什么订单支付我就不写了啊好,然后呢,我退出京东了,然后我又直接进来,我通过一个广告点进来了,直接进到的是一个商品详情页,可以吧。因为他给我推送了一个广告,诶购购买这个口罩,对吧,在其他的我访问其他的平台,他推送这个口罩,我就直接点了它给我跳转到京东了。啊,那这又是一次绘画吧?对吧,好,这是一次绘画啊,这个呢,认为一次绘画,当然后面还有啊,对吧,后面还有啊,这就两次绘画,那个绘画有什么特点呢,就是说。在同一个绘画中,他访问的多条数据呢,一般来说啊,我们就按正常情况,有极端情况我们不考虑对吧,正常情况来说呢,这个绘画。
08:03
他应该怎么样?挨得很近,在一个会话当中,对吧?你访问的多个页面,从时间上来说,他应该挨的很近。有没有问题?大家想。有没有问题?对吧,我认为在一个绘画当中。一般理论而言对吧,你就不聊极限的情况,那有的人说我在一个平台,我就这个页面,然后呢,我去挂在这个页面对吧,我就洗了个澡,然后回来,我过了半个小时。我还接着访问。对吧,那对于这种情况,有很多公司呢,其实他会给你换一个绘画重新,就是你上一次绘画可能还中间。断了,然后你再接着访问的时候,可能是一个新的绘画了,但是有的呢,可能也是直接是同一次绘画。
09:00
对吧,啊,因为就完全按照时间来的。那也就是说,我们可以这样认为。怎么认为呢?如果你连续的两次访问间隔时间很短。我就认为是同一个绘画对吧,现在问题呢,没有绘画ID对吧。那我们没有绘法ID,我就没办法严格意义上知道你到底是一个合法当中几条数据,所以呢,我们就想一个办法什么呢?呃,我们认为。连续的。两条。数据。如果间隔时间。很短对吧,比如说这个是公司规定啊,有的公司规定呢,60秒对吧,有的公司呢30秒。啊,那我们呢,假如说十秒啊,我举个例子啊,十秒钟对吧?诶,如果两条数据间隔时间很短,那么。认为。
10:01
是同一次绘画。啊,同一次。绘画的。访问。记录啊,因为没办法呀,咱们没有绘画ID。对吧,我们就退而求其次,当然那也就是说你这个呢不好对吧,因为有可能会出现什么情况呢,我刚退出这个页面,然后呢,我又进来,呃,中间间隔五秒钟,本来人家应该是两次会话,你把它算作一次了。对吧,确实是有这样的问题存在,但是这不是没办法吗?大家想是不是我这个没办法,因为没有绘画ID啊,我只能规定一个什么时间。能明白这个意思吗?能明白吗?
11:05
啊。就是说我们是没有绘画ID才这样去做的,对吧,根据时间来判断。因为正常来说,在一次会话当中,他很多条访问记录时间。就应该挨的很近对吧,那我们就反过来用这个。来推好,那我把这个写出来了啊,做核酸是吧,你去吧啊,那我把这个写出来了。大家想这个需求我们可以怎么做?就当前这个需求,我们可以怎么做?啊,咱们可以怎么做。哎,雷总说的不错。绘画窗口开窗对吧,我们可以使用一个东西叫绘画。
12:02
窗口。我们可以用会话窗口来解决这个问题,对吧,比如说我呢,呃,搞一个十秒对吧,会话窗口呢,间隔十秒。然后呢,我们就开窗,然后我们最后统计。窗口中的。数据。条数对吧?如果为一,则。输出,反之。丢弃。对吧,反之丢弃啊,就是说我呢开个窗口。啊,窗口间隔时间会画窗口嘛,对吧,他给你一个间隔时间,间隔时间呢,我让他是十秒。对吧,那只要你是十秒以内。那就怎么样。只要你是十秒以内,我就认为你是同一个绘画里边的,对吧,用窗口来做这个事情。
13:04
对吧,然后我们直接统计这个会话窗口里边有多少条数据啊,那我只要唯一的对吧,只要一条的啊,只要一条的这种方案。OK吗?当然它有瑕疵哈,它有瑕疵对吧,就是我们说的,如果说呢,你短时间内。来了很多条数据,对吧?啊,但是呢,这也是没办法的事儿。对吧,啊,我们要接受这样的一个误差,因为你没有绘画ID啊。对吧,你没有绘画ID啊,就没办法对吧,用绘画窗口,而且我要告诉大家,绘画窗口其实它的一个使用场景就类似于这样子的。对吧,为什么它叫会话窗口,他连续的访问。对吧,挨着他给你一个间隔时间嘛,如果你超过这个间隔时间,那我就认为不是同一个绘画,只要你不超过这个时间,那我就认为是同一次绘画,对吧?绘画窗口它的应用场景呢,就是这个。
14:03
这是一个典型的应用场景,对吧,那这个呢,我们可以作为咱们的一个第一个思路,对吧,起码我想的啊,但是呢,呃,它里边有明显我们能发现到的不好的点,对吧,就是什么呢?就是我们说的这个事儿。你呢,这一个访问,这一个访问对吧,它呢间隔是五秒钟。间隔五秒钟,那你如果按照十秒。作为窗口间隔,那你就把这两条数据呢,放到了一起啊,而这两条数据呢,很有可能它呢是进入页面退出去了,然后又进入页面退出去了。对吧,它是两个跳出,它有可能是两条跳出,但是呢,你如果会画直接统计个数对吧?那。就一条都没输出。本来有两条数据。对吧,然后呢,导致你一条都没有,那这种数据是不是存在的呢。这种数据是存在的,对吧,为什么你看啊呃,大家可能都遇到过一个情况,就是弹窗。
15:07
对吧,弹窗,而且弹窗呢,他有时候很恶心啊,他呢,这搞一个假的查是不是。啊,然后真正的差呢,在这个左边。是不是?对吧,真正的这个叉呢,在这个左边啊,然后呢,你看到弹窗了,你是不是点了一下右边。然后怎么样。你就你就进去了,你就进到这个页面里边了。啊好,然后呢,你你发现啊,你就大概能明白了,它的这个叉呀,在右边是骗人的对吧?好,你就把那个页面关了,你是不是形成了一次跳出。形成了一次跳出吧,对吧,好,然后呢,你退了又回到这个页面,回到这个页面干什么事呢?你你又点左边,因为你发现在左边,哎,就像那个彭总所说,对吧,还点不到。啊,一点点歪了,点不到,然后又干什么,又进到页面了,气死了对吧,赶紧把这个页面关了,然后呢,呃,这次点到了,把它干掉了,是不是形成了这个点啊,而且呢,两次独立的跳出,是不是时间上挨得很近。
16:14
对吧,这个经历大家呢,应该有的同学是经历过的,实打实存在这种情况的,对吧啊。就是他他经常非常恶心啊,一个广告是吧,啊,什么游戏广告类似于这样子的啊。然后呢,你一点。点错了进去了,然后出来又重新点,又点错了,连续点了好几次对吧,那正常来说他应该就是好几次会话。但是如果我们按照。时间。按照这个时间。对吧,他就会划分到。一个窗口里边。啊,会划分到。一个窗口里边。对吧,啊,这意思,这是我们的第一个思路啊,当然了,它有瑕疵啊。
我来说两句