这套烧脑的数学模型,教你如何预测一个互联网产品的未来

这套模型是我在运营路况电台 2000 万用户过程中积累出来的,也是我们团队做产品迭代,运营和产品目标设定最基本的方法。这个产品模型从几个相对不同的维度定义一个产品的关键要素,是测量产品好坏最核心的指标,通过这套模型能迅速发现产品的问题,留住用户的能力并预测产品未来的走向。这套模型非常实用,我多次给很多兄弟团队做过分享,但是一直受限于时间,没有整理成文,最近因为一个小手术要住院,时间比较充裕,才有时间把这套模型整理出来,分享给做产品和运营的童鞋们。对于一个产品,大家都知道留存和黏度等基本指标是非常关键的,如何预测一个产品的未来,也恰恰是这些指标。要预测产品未来,就得先研究清楚这些基本产品指标的规律。

留存率的规律

留存率是一个产品最核心的指标,这是一个产品留住用户的能力,也是产品经理最应该关注的指标,因为产品迭代改进绝大多时候是在优化这个指标。 留存率的统计一般会按照时间的跨度按(日,周,月)来统计,按照时间维度,有次日(周、月)、2日(周、月)、.... 、7日(周、月),30日 等多个统计维度,但是无论哪种跨度,都遵循相同的规律。 下面我们用月留存来举个例子说明,下表是某产品的月留存率数据:

趋势如下:

左边是留存趋势图,右边是一个衰减幂函数的图像,大家是不是看这两个趋势有些相似,是的留存率的趋势就是遵循幂函数的规律,不同的是我们看到的留存率趋势图都是取自变量x>=1 之后的数据,因为留存率的统计都是 1日(周、月)之后的整数。 任何留存率的趋势都是一个幂函数

所以说一个产品的留存率由两个参数 ab 决定,那我们进一步探究 ab 的规律。

  1. a是幂函数下降的起点值,在留存率趋势来说就是我们常说的次日(周,月)留存率,下面我们以 C 来代表这个值。
  2. b 是幂指数衰减的趋势,代表留存率的衰减速度,我们以 R 来代表这个值。

C 值和 R 值的计算,一般有两种方法,一种是通过拟合算法得来,另外一种是通过幂函数模型反算出来;拟合算出来的准确度更高,并且可以算出拟合误差,不过拟合出来的C 值和次日(周,月)留存率会有微小的差异,同时计算的复杂度稍微大一些;第二种通过模型反算比较简单,很适合表格公式操作,为了简单方便我一般都用第二种算法,给大家介绍一下反算的方法:用 C1,C2,C3,…Cn来表示1,2,3,...n日(周,月)的留存率,C =C1R = average ( log2 (C2/C1),log3 (C3/C1),…,logn (Cn/C1) )

回到我们上面举例子的产品,根据已知的留存数据,我们通过模型计算出来这款产品留存的趋势模型是:留存率= 43.7x^{-0.53307}, (其中 C=43.7,R=-0.53307)

在实际使用过程中,通过已有几日(周,月)的留存数据,按照模型就可以反算出 C 值和R 值,从而推算出将来几日(周,月)的留存率数据。

这里很多童鞋可能会问,我的产品留存率趋势不是按照这个模型衰减的,我的回答是产品的留存衰减一定是满足衰减幂函数模型的,如果你的产品衰减不遵循这个模型,一定是产品中掺杂了很多非正常的噪声,这个时候你就要高度警惕了。我之前见过一些产品就因为渠道刷量、刷回访造成产品留存违背模型的情况,这个时候你就需要问责渠道了。用这个模型除了可以监控渠道异常之外还可以通过短期的数据来预测长期的留存成本,快速监控渠道质量。

下面我们来通过几张图来看看 CR 这两个参数对留存率的影响,用另一款产品来说明: 1.R 值对留存率的影响

上图左边是一个标准的幂函数随着幂指数变化的趋势图,从图中可以看到,幂指数 alpha 越接近 0(越大),幂函数衰减的速度越慢;幂指数越小,幂函数衰减的速度越快;右边的图片是一个实际产品的数据,假设通过不断优化产品,让R 值从 -0.825 提升到 -0.525 的趋势,从图上看出,当幂指数提升到-0.525 的时候,第 6日 的留存率提升了5 个百分点以上。因此要提高留存率,一定要努力提高R 值。

2.C 值对留存率的影响

C 值代表留存的起点,从图中可以看出 C 值越高,以后各日(周,月)的留存值也会更大,这也就是我们常说的出身决定未来啊 O (∩_∩) O 哈哈~

上面的内容比较烧脑啊,很多数学公式,我本不想故作高深,但是为了把模型说明白,只能这样。数学不好的童鞋们,也不用关注太多公式的事情,只需要知道一件事情 产品的留存率满足数学规律并和两个参数相关,一个是次日(周,月)的留存,一个是留存的衰减趋势,改善产品留存就努力改善这两个参数。

说到这里可能很多童鞋会问,我产品的C值和R值到底是好是坏了,这个没有一个统一的结论,因为产品解决的需求不一样,新增用户规模不一样,没有统一的标准。不过对于一个刚上线的纯移动互联网产品,用户规模不大的情况下,如果C值低于 35,R值小于-0.6 的话,就要警惕产品是否有问题了。

产品的黏度指标

黏度指标对产品是很关键的指标,它说明了用户使用产品的频次,我们通常用MAU/DAU(MAU=月活,DAU=日活) 来定义产品的黏度指标,这个比值代表用户回访的天数(几天会用一次产品),当 MAU/DAU=1 的话说明这款产品用户每天都用;为了更方便理解,这个指标也可以这样计算 DAU/MAU * 30 ,这个指标代表用户一个月会用几次产品,下面是两个产品的实际数据:

产品 1 的用户一个月会用 2.6 次,产品 2 的用户一个月会用 5 次,是产品 1 的一倍,说明产品 2 比产品 1 更有黏度。对于游戏或者社交类产品的 MAU/DAU 一般都会小于 5,如果一款游戏产品 MAU/DAU 大于 5 的话,这款游戏的盈利能力就会有问题,工具类产品这个值也不能超过 10,小于 7 基本是比较合理的。

理解活跃用户(Active User)

前面这么烧脑的研究留存率的规律和黏度的指标,其实都是为了下面真正探究一个产品活跃用户的规律。很多人最关注的往往就是产品的日活,它代表一个产品活跃用户的总量,也通常是很多产品的终级 KPI。因此理解日活的规律是合理制定 KPI,并找到可达目标方案最有效的办法。

DAU (MAU) = 当日(月)新增 + 累计历史日(月)留存

我们以 MAU 来简单说明,以上面举例的一个产品的留存数据为基础,假设该产品每月新增 100 个用户,MAU 的累计图如下,

从图上大家可以看到柱状同色用户量的衰减和留存率的衰减是一致的。从活跃用户的构成上来看,除了新增用户之外,活跃用户的另外一部分是由历史留存用户构成,而历史留存用户由留存率决定。为了进一步说明活跃用户和留存率的关系,我们还是拿上图的产品,如果留存模型中的R值变化,MAU 会有什么样的影响:

从图中可以看出,从相同的起点开始,R=-0.625 的产品比R=-0.825,在第 7 个月的时候总活跃用户多了 8%,如果时间更久的话,差距会更大,足见R对长期活跃用户的影响是非常大的。

预测你产品的 DAU

DAU 是大家最关注的宏观指标,是很多产品的 KPI,所以如何科学合理的制定 DAU 的目标是非常关键的。预测 DAU 其实也不难,按照下面 3 个公式就可以完成预测:

  1. 预测 DAU = 预测 MAU / 预测(MAU/DAU)
  2. 预测 MAU = 预测当月新增 + SUM (历史月留存)
  3. 历史月留存 = 历史月新增 * 历史月到预测当月的留存预测值

历史月到预测当月的留存预测值 是通过留存率模型中C值和R值来计算的。从上面的公式可以看到,预测 DAU 的关键控制指标为以下四个:

  1. C 值 次月留存率
  2. R 值 月留存衰减趋势
  3. MAU/DAU
  4. 月新增(MNU)

如果用数学公式表达的话,DAU = f (C,R,MAU/DAU, MNU)

通过上面的公式可以向后预测多月之后的 DAU 值,比如说年初要设定年末的 DAU 目标,根据产品现在的模型参数,预计改善的产品参数目标和新增用户目标,准确预测 DAU,预测 DAU 满足预期目标之后,再反过来就可以得到要实现的产品模型参数,形成分解目标。有了分解的目标,最终完成整体目标的可能性就高多了。

预测的方法上面已经说清楚了,用下面的几张表格说明具体计算的过程,我们根据 2015年10月 份到 2月 份的产品数据来预测 2016年4-6月 份的 DAU 数据:

1.根据现有的留存数据计算留存率参数

黄色部分就是根据现有数据估算的C 值和 R 值,绿色部分是根据留存率模型估算的往后的留存率数据。

2.设定预计导入的新增用户,并根据估算留存率数据,计算逐月的留存用户

  • a.设定预计导入的新增用户如下:
  • b.依次计算逐月的留存率
  • c.逐月计算月留存用户

如图中可以看到,为了计算 16年6月 的 MAU,需要把这之前的所有月份(2015年10月 到 2016年5月)到 2016年6月 份留存下的用户全计算出来。

3.累计历史留存用户,计算 MAU

图中黄色是 16年6月 份的 MAU,从图中公式可以看出它是历史所有月留存用户和当月的新增用户之和。

4.以往 MAU/DAU 均值作为 MAU/DAU 的预测值

5.依据 估算 MAU 值,MAU/DAU,计算 DAU

图中黄色部分为计算出来的 DAU,后面并根据实际值,计算了估算误差,经过多次验证,这个模型估算的误差较小,不会超过 10%,如果没有大幅的数据波动,一般都会在 5%以内。在用这个模型的时候大家,可以通过调整参数,预测指定时间的 DAU,办法就是调整产品的参数和新增用户量达成 DAU 目标,从而反得出产品控制参数。

警惕 DAU 这个虚荣指标

前面讲过 DAU 往往是大家最关注的宏观指标,也是很多产品的 KPI,但是 DAU 是个绝对值指标,根本反应不了产品的实际状况,反而这个指标往往容易骗人,经常会给产品经理带来沾沾自喜的感觉,但是我想告诉大家的是,日活其实是个虚荣指标,如果你的产品没做好,再高的日活都是浮云。由于 DAU 是新增用户和历史留存用户之和,大量的新增很快会推高日活,导致日活不断增长,但是如果产品的留存数据不好,黏度指标不高的的话,历史留存用户的增量会越来越小,甚至成为负增长,这时候你的产品日活主要是靠新增拉动,一旦新增降下来,日活将剧烈下降。

这套模型想告诉大家的是产品的关键指标是留存和黏度参数,DAU 可以是产品的整体目标,但是达成的手段是优化留存和黏度这些产品参数,如果没有这些数据的提升,导入再多的新增也没有用,会全部流失掉。这篇文章理论性比较强,涉及到一些数学模型,很多童鞋如果没有实战过的话不一定能完全掌握,大家在阅读或实际运用过程中如果有问题可以随时沟通,我的微信是 gaopingli,另外我还有一个操作的实际模板,需要的话大家可以找我要。

作者路况电台李建刚。

来源:http://36kr.com/p/5046059.html

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2016-04-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

【业界】高通公司推出专为物联网边缘计算而设计的视觉智能系统芯片

高通公司周三推出智能系统芯片QCS605和QCS603,其结合了图像信号处理器、AI、CPU和GPU技术,以支持各种相机应用、机器人和智能显示器。 高通物联网产...

32090
来自专栏架构师之路

通俗易懂,互联网的常见推荐算法

没有复杂的公式,没有晦涩的技术词汇,从最简易的案例,了解互联网最常见的推荐算法,每篇1分钟,保证弄懂。 一、《从电影推荐开始,聊协同过滤》 什么是协同过滤 协同...

421130
来自专栏专知

势头强劲: PyTorch周年大事记盘点

【导读】 1月19日,PyTorch团队对PyTorch发布一年来的成长轨迹做了总结。在过去一年里,PyTorch资源包的下载量超50万次、PyTorch频频出...

36350
来自专栏计算机视觉战队

DL框架的未来发展,TensorFlow/MXNet/Torch, 选哪个?

DL framework的学习成本还是不小的,以后未来的发展来看,你建议选哪个? 请主要对比分析下4个方面吧: 1. 实现新计算单元(layer)和网络结构的便...

58690
来自专栏企鹅号快讯

金融机构利用人工智能反欺诈的利器:设备指纹技术的前世今生 下

01 设备指纹的核心技术 设备指纹技术是一个综合性的系统工程,掌握这门技术需要跨越一系列的技术门槛,这也是为什么虽然应用场景广阔,至今市场上此项技术提供者并不多...

44470
来自专栏量子位

PyTorch发布一周年:盘点社区和工程大事件,后来者居上态势已显?

安妮 编译自 PyTorch官网 今天,PyTorch公开发布一周年了。 这个自诞生之日起就火热的深度学习框架,这一年是怎样的成长轨迹?刚刚,PyTorch团...

270100
来自专栏AI科技评论

视频 | 憋不出论文怎么办?不如试试这几种办法

AI 科技评论按:这里是,油管 Artificial Intelligence Education 专栏,原作者 Siraj Raval 授权雷锋字幕组编译。 ...

35170
来自专栏量化投资与机器学习

【最新研究】强化学习在Market Making上的应用(系列58)

16320
来自专栏新智元

【开源】北大团队大规模稀疏数据机器学习库xLearn,c++ trending 已超TensorFlow

编辑:弗格森 【新智元导读】 机器学习博士马超近日在微博上介绍他和导师肖臻教授一起开发的一款专门针对大规模稀疏数据的机器学习库xLearn并开源。并称, vi...

48280
来自专栏数据科学与人工智能

【数据可视化】深度解析大数据可视化设计案例分析

大数据可视化是个热门话题,在信息安全领域,也由于很多企业希望将大数据转化为信息可视化呈现的各种形式,以便获得更深的洞察力、更好的决策力以及更强的自动化处理能力,...

34480

扫码关注云+社区

领取腾讯云代金券