00:00
呃,好了各位,那现在呢,我们再来看一下这个需求啊,叫做什么叫做用户留存率啊,这里边可能又是一个新的概念,叫做留存率,对吧?那什么叫做留存的,我们继续往下看,看看它是怎么解释的啊呃,那首先留存呢,我们一般诶要说到留存,它其实是包含两种的,一种我们称之为什么呢?是新增留存,那还有一种呢,我们称之为活跃留存,诶那什么叫新增留存,什么叫活跃留存呢?我们继续往下看啊,来先看新增留存,他说新增留存呢,是去分析某天的新增用户当中有多少人会有后续的活跃行为。呃,是这样的啊,OK,举个例子啊,假如说我某一天对吧,我新增了这个100个人对不对?OK,好,我看一看这100个人当中,对吧?在比如说过了两天之后,或者是过了三天之后,还有多少人他是活跃的一个状态对不对?OK,比如说后边还有80个人活跃对不对?那我们所谓的新增留存分析是不是就是分析这个东西啊,对吧?诶,分析某天新增的用户当中,诶有多少人会有后续的活跃行为?好了,那接下来我们继续往下看,先大概了解一下就行了啊,那活跃留存分析呢,跟他其实比较类似的啊,那他分析的是什么呢?分析的是某天的活跃用户里边有多少个人会有后续的活跃行为,比如举个例子,那某一天,哎,我这儿呢,有100个人活跃了对吧?好,那我想看一看,过了这两天之后,对吧,那这100个人里边还有多少个人仍然是活跃的一个状态,诶是这样的啊,这块大家稍微再了解一下行了,那这就是新增留存和活跃留存的两个基本概念,OK啊,当然说的不够具体,那要想呃理解更加具体呢,我。
01:43
必须得看具体的例子对吧?来我们继续往下看看例子啊,他那说了啊,他说呃,什么留存分析是衡量产品对什么用户价值高低的重要指标,但其实是说了一下这个留存分析的意义啊,这个咱们也先看一下吧,那这个怎么去理解这个事儿啊,留存分析是衡量产品对用户价值高低的重要值位,大家想想,你说这个能不能想明白,应该是能想明白的啊,比如说举个例子,我们以谁为例呢?咱们以这种新增留存为例,假如说举个例子,各位同学啊,某一天比如说我新增了1万个用户,好,那完了之后呢,哎,我想看一看,过了一天之后,对吧,这1万个用户当中还有多少个人仍然有活跃这个行为,对不对?那假如说我这个,呃,会有,比如说有这个9000人,那仍然是活跃的状态,那就说明什么,是不是说明咱们这个产品对用户的价值是比较高的呀,对吧?好,那假如说我今天新增了1万个人,对吧,过了一天之后,我发现只剩下100个人了,对不对?那这就说明啥呀?是不是说明这个产品对我的价值不高啊,对吧。
02:43
就这个意思,所以这儿咱们大概也能理解,行了,那这个不重要,我们重点看下边看一看这个留存率咱们到底怎么算对不对?来往下走,呃,先看一下这个需求让我们算的是什么啊,这个需求他让我们算的是新增留存率,诶那不是说了吗?留存分两种,一个是新增,一个是活跃,对吧?我们算的是新增留存啊,新增留存好,新增到底怎么算,往后打,往后走,他的新增留存率呢?哎,你要算的话呢,你肯定是不是用一个数比一个数,对吧?谁比谁呢?用留存用户数与新增用户数进行这个比较好,那新增用户数这个概念很简单,咱们好理解,对吧?那这个留存用户数到底是什么呢?我们往后看,这儿有个具体例子,例子一看完,大家立马就明白了啊,他说,例如2020年6月14号这一天新增了100个用户。
03:34
一日之后,一日之后是不是也就是呃,6月15号了呀,对吧?OK,那这100个人里边指的是哪100个人呢?是不是肯定是新增的这100呀,对吧?OK,里边有80个人活跃了,OK,好,那这时候呢,我们就能得到一个留存率啊,那咱们看得到的什么留存率,我们说2020年6月14号的一日留存数是80。啊,是这样的啊,OK,什么意思呢?什么叫2020年这个6月14号的一日六村日80呢?也就是说你2020年6月14号新增的那部分人里边,是不是在一天之后,诶活跃的有80个人,对吧?诶是这个意思啊,OK,继续往下走,那你又得到一个值,就是说2020年6月14号的一日留存率则为80%,这个80%怎么来的,很简单,是不是就是用我这个留存税去比上那个6月14号的新增用户来对吧?就是80%就是这么来的,这就叫做新增留存率啊,然后大家注意观察一下啊,就是刚才我再去说这个留存税和这个留存率的时候呢,我没有直接说留存税是80,哎,直接说留存率是80%,我是怎么强调的,我是这么说的啊,我说的是2020年6月14号的一日留存税是80,哎,2020年6月14号的一日留存率是80%。
04:55
也就是说我们在提到留存的时候,我们一定要给他明确它的两个定语对吧,那一个就是日期,一个就是留存的是不是天数啊,对吧,你一定要说明是哪一天的,几日留存,那我们的表达是不是才是准确的呀,对吧?你光说一个留存时候,我不知道是啥意思对不对,我不知道是哪天的,我也不知道是几日留存,所以说说留存必须得把前面这个日期和留存天数给带出来才行,这个大家一定要给它搞清楚好了啊,那这就是新增留存率的概念啊,新增留存率的概念啊,那接下来咱们继续往下进行看一看,就是咱们当前这个需求,让我们算的到底是哪些留存率啊,来此处要求我们统计每天的一至七日留存率,什么叫天的一至七日留存率呢?比如举例子,我们以2020年的6月14号为例,对吧,那你可能你将来需要算到什么呢?需要算2020年6月14号的一日留存率啊,2020年6月14号的两日留存率,2020年6月14号的三日存。
05:56
是不一直算到它的七日留存率啊,对吧?诶这一点大家咱们要给他搞清楚,这是我们这儿诶要算的这个内容,OK好,那下边这个图呢,实际上是一个最终可视化的一个效果,来看一下这个能不能看懂啊,首先这儿有一个日期,那里边呢,202166月一号62016月二号等等等,这个日期我可以告诉大家,这个指的实还是什么日期呢?是新增的那个日期能理解吧,OK啊,新增日期,假如新增日期现在是6月1号,好,那我这一天呢,新增了642名用户,OK,好,那他的一日留存率是这点,哎,两日留存率是这点,一直到一直到七日留存率是这点,好了各位同学,那这实际上就是咱们这儿最终要统计的内容,是每一天的一到七日的留存率。
06:39
行了,好,那这个讲完之后呢,我们现在来思考一个小问题啊,但大家想一想,你说我同一天的,比如说咱就以他为例,同一天的这七个留存率对不对,我们在算的时候,我们是不是在同一天计算的。是不是在同一天计算的,这个咱得琢磨琢磨啊,是不是。
07:05
是不是是不是在统一的计算的。其实咱们真正在算的时候呢,并不是在同一天算的啊,也就是这一天的这七个留存率并不是在同一天算的啊,那不是在算,他们是在哪天算的呢?其实咱们可以分析分析啊,假如说举个例子,我们现在先看一日留存,对吧,你说这一天的一日留存你是在哪天算的。呃,你要想知道在哪天算,咱是不是得知道我算这个留存,我需要用到什么数据啊,对吧?首先你要想算2021年6月1号的一日留存,你首先你得先拿到是不是这一天的新增用户啊,对吧?啊,那我还得拿个什么,是不是还得拿到它那个6月1号之后一天的,对吧,就是一天之后的那个活跃用户,我是不是才能找到那个留存用户啊,对吧?啊是这样的,OK,那也就是说我需要用到6月1号之后,呃,就是6月1号一天之后,也是6月2号的活跃用户之后才能去算这个一日留存。
08:03
是这个道理吧,OK,好,那你什么时候才能拿到6月1号的一天之后的活跃用户呢?是不是得在。三号啊,对吧,也就实际上这个东西咱们是在三号去计算的啊,实际样,那同理,你说这个是在哪天算的呀,四号算的吧,这个呢,五号算的,这个是六号,是不是应该是这么一个逻辑啊,对吧?所以这块大家一定要先把它给它搞清楚,好的这一点搞清楚之后,那现在呢,我们需要去明确一个问题,明确什么问题呢?咱们这个数仓我们是怎么算的,我们是离线数仓,咱是不是一天一天的算呀,对吧?好,那我们是不是每一天的计算任务都是类似,都是重复的,对不对?好,那咱们现在就得明确一下,对于这个留存率这个需求而言,那咱们每天要计算的留存到底是哪些,这个咱是不是得琢磨琢磨呀,对吧?哎,比如说我们现在举个例子啊,假定我们现在已经拿到了数据仓库当中的6月14号这一天的数据了,这是我们最新的一天的数据啊,当然这一天的数据什么时候拿到的,是不是应该是15号拿到的,对吧?好,你拿到这个14号的数据之后,你说我们这个留存咱们应该能算哪些?
09:11
对吧,咱必须得明确我这一天的计算任务嘛,对吧,你拿到14号的数据了,那你的留存应该是算哪几个。应该算哪几个?啊,14号的数据拿到了,我就可以算什么了。咱们得明确,就是我们说到留存是不是必须得是哪一天的几日留存呀,对吧?好,那你拿到14号数据之后,你能算哪一天的几日留存,应该是13号的一日留存吧,是这道理吧,然后呢,还能算什么12号的两日留存对不对,然后依次类退,11号的三日留存等等等,是不是一直算七个就完事了,对吧?诶这个大家需要给他搞清楚,哎,是这样的啊,也就是说我们每天的计算任务它应该是这样的,诶这个一会儿大家在自己去做这个需求的这儿呢,自己写三的,一定得先把这个问题给它捋明白,哎,捋明白之后,我们是不是才能以这一天的数据为例,去写咱们这个每天重复执行的这个逻辑啊,对吧?这个大家搞清楚就行了啊,行了,那在这儿呢,我暂时就先说这么多,呃,那现在下边呢,我们再把这个最终的建表语句拿出来,咱们看一看这个最终的数据的结构是什么样的啊来咱们看一下留存率这个需求最终的建表语句,首先先看一下它的表名叫做。
10:27
DS user re,也就是用户的是不是留存,对,Re就是的意思啊好,那来继续往下看,我们来看一看这张表的具体的表结构,我们先来熟悉一下它的字段啊,首先第一个就是一个统计日期DT,然后呢,再往下,这是一个什么?可rate date create在这指的是什么?指的是新增的这个日期,对吧?诶,完了之后往走,Retention内这个指的是什么?是留存的那个天数吧,对不对?再往下走,这个是啥?Retention count。这其实就是留存数,那这个呢,New右点看看这是不是就是新增这个用户数啊,对吧,然后再往下呢,是什么是re rate,就是那个留存率,诶是这样的啊好,这几个字段咱们都看完了,看完之后我现在问一下大家啊,你说咱们这张表的结构,就这张表的结构啊,跟我们刚刚看到的文档当中这张图的结构它是不是一样的。
11:19
就是他们每行所表达的内容是不是相同的含义是吗?是不是这个表的结构跟这个图里边结构一样吗?显然是不一样的对吧?那咱们文档当中看到这个图我每行指的是什么?是一个新增日期对吧?然后后边的是它对应的一到七日留存没问题吧?这是表的结构,这这是图的结构,那咱们这张表的结构我每行指代的是什么呀?这个大家能不能能不能想明白,这个每行指的应该是一个什么?应该就是一个留存率吧,对不对,你看啊,这是不是已经给咱们声明了,这一行数据是哪一天的几日留存啊,对吧。没问题吧,也就说咱们这张表呢,我一行数据其实就是一个留存率啊,OK,比如说举个例子,我们刚刚不是举了一个这样的例子嘛,诶是2020年6月14号的,是不是一日留存率啊,对吧?好,那你想一想,这个数据要放在咱们这张表里边,它应该是怎么存呀?就这么存呗,首先诶新增日期那应该是啥?是不是2020年的6月14号啊,对吧?诶这个应该是能够搞清楚的,然后往下走,那我这个留存天数呢,是不是就是一呀,对不对,然后再往下retention count,那就是多少,刚才咱们看的是80对吧?那new u count的只是哪一天的new u康是可re date这一天的,对吧?OK,那是不是就是14号的新增,咱们刚才说的是100个人呀,对吧?OK,那留存率呢,是不是就是80%,也就是说我们这张表当中一行数据,它存储的是一个留存率,也说表的结构跟文档当中这个图的结构并不完全一样,所以大家不要为这个图搞混了啊,OK,咱们要以这个表为咱们的这个目标,OK,好,那这就是咱这张表的一个表结构,好那我现在问一下大家,你说我们每天。
12:56
去做这个需求对吧,算完之后会往这张表里写入几行数据。
13:01
每行写,每天写几行啊?咱们每天要算几个流存啊,应该是七个吧,对不对?刚才咱们已经分析过了,应该算七个,所以在这呢,我们应该是每天会往里边写入七行数据才对,哎,这一点咱们要稍微的理解一下啊,好多同学那截止到现在留存率这个需求也就布置完了,呃,然后大家对于留存率这个需求还有什么疑问吗?啊,就是我还是不太清楚这个字段的含义,或者还是不太清楚这个留存到底要算什么,呃,有疑问吗?呃,要是没有疑问的话呢,那我把这个视频就停了啊。
我来说两句