应用:用户生命周期

摘要:设计一套完整的用户生命周期策略,极大程度上会提高用户活跃,降低用户流失,反应用户留存,为平台运营的不可或缺的一环

定义

用户生命周期是指用户从加入平台开始,熟悉平台,参与平台,最终流失的整个过程。用户的生命周期相对于自身而言,是一种参与度的变化,参与度也可以称之为活跃度。


如何定义参与度?

以电商平台而言,冒泡(打开app),浏览,点击,搜索,收藏,加购物车,下单,评论等都是用户参与平台的主要行为,综合考虑(但不限于此)这些因素,

活跃度:

θ = α1* pv + α2 * click + α3* search + α4 * clc + α5* cart + α6* order + α7* comment + bubble

*其中,θ是活跃度,pv是用户浏览量,click是用户点击量,search是用户搜索量,clc是用户收藏量,cart是用户加购物车次,order为用户订单量,comment为用户评论量 α1 为全部用户冒泡次数 与 全部用户浏览量之比; α2 为全部用户冒泡次数 与 全部用户点击量之比; ...

这样保证了,所有平台参与行为与用户活跃情况成正相关,同时动态变化的降低了操作成本低的变量的权重,也满足奥卡姆剃刀原理 后续再利用活跃度来直接衡量生命周期状态。

如何定义生命周期?

  • 以电商平台为例,考虑用户的行为,先来定义生命周期状态划分逻辑: 1.计算用户连续N(N>3)个周期内的参与度组成特征向量 2.形成不同生命周期下的模式特征向量 3.分类用户的特征向量如下:

生命周期状态

生命周期类型

描述

初生期

新增用户

处于新生用户没有用户记录

成长期

显性成长

最近三次生命周期状态都是成长期

成长期

隐性成长

最近三次生命周期状态不全是成长期

稳定期

低稳定

处于平稳期阶段,参与度低于1/4分位数

稳定期

中稳定

处于平稳期阶段,参与度介于1/4-3/4分位数

稳定期

高稳定

处于平稳期阶段,参与度高于3/4分位数

衰退期

轻微衰退

连续x个周期进入衰退期或流失期

衰退期

重度微衰退

连续x个周期进入衰退期或流失期

流失期

流失期

刚进入流失期

沉默期

沉默期

长期处于流失期

  • 定义完整的用户生命周期状态后,再对用户的生命周期做session切分,根据聚类算法,将样本用户进行聚类,形成聚类中心,判断用户距离聚类中心距离,匹配用户所处的生命周期详细位置,反过来输出分位数,判断用户生命周期类型。

下面思考如何优化kmeans解决这个问题:

考虑到业务开发的效率等原因,常规的聚类算法中,kmeans常常为优先考虑的算法,但实际运用过程中,需要根据不同的问题有差异化的优化。

1.考虑用户的特征偏移 可能存在用户的活跃属性间断,比如用户外出出差一周,导致某个单位统计时间内平台参与度下降,用户的活跃属性下降,而实际用户为真实高活跃用户,只是出现异常间断点,影响用户活跃的最终判断,利用语义分析中的最佳路径计算方式解决这个问题。

这三条线中,蓝色和青色线的分布走势类似,而红色线条的差异较大;计算蓝色-->红色的欧式距离,蓝色-->青色的欧式距离,发现蓝色-->青色的欧式距离反而大于蓝色-->红色的欧式距离,时间波动的情况下,欧式距离偏差较大。

所以,常规意义上的kmeans等基于欧式距离的算法这种情况下,使用较为局限。所以在整体思路不变的情况下,就距离计算,我们可以参考语音分析里面的DP(最佳路径规划算法),构造邻接矩阵,寻找最小最小路径和

实际在计算蓝色曲线到青色曲线的距离的时候,同时计算AB(蓝色曲线当前位置A点到前一个时间段青色曲线位置B)、AC(蓝色曲线当前位置A点到当前时间段青色曲线位置C),AD(蓝色曲线当前位置A点到后一个时间段青色曲线位置D)的距离,综合判断一个点最短路径;再根据曲线上的每一个点,会形成一个矩阵,判断矩阵的每个点的最佳路径即可

可以用如下的公式表述:

其中,

就是路径选择的过程

以上述的计算方式替换掉常规的kmeans中的欧式距离,提高了相似度的计算精度。

2.常规等距划分session不适用于生命周期

就用户平台活跃而言,不同用户可采用的用户时间窗口不同,新加入的用户可能可获取的时间长度较短;用户判断过程中的session与平台确定已知的生命周期session固定判断长度也是不相同的。同时,kmeans中的距离判断方法不能同时考虑到不同session下的距离计算问题

最简单常规的计算方式: 是补全较短的session的时间窗口,在相同的时间窗口之下,再去计算较短的时间窗口与较长的时间窗口下的生命周期的均值,这样会人为干涉过多,数据质量较低,图b即为数据补齐

"STS距离"计算方式: 在长时间窗口{r}集合中,寻找时间窗口长度子集,使得子集中的元长度与s曲线缺失的长度一致,在以s断点处开始向后寻找{r}子集合中的所有满足的元,再以均值时间序列替换原来的子集中的元作为r和s的拟合曲线,循环往复计算中心曲线2,如图c

有了补齐长度下的中心曲线,再便可采用kmeans的常规方式,计算各时间长度窗口下的生命周期的距离

3.附加限制属性 再最后落地生命周期的长度的时候,考虑到商品平台的特殊属性,比如:

  • 商品周期性(奶粉用户周期购买等)
  • 用户偏好属性(酒店用户品质偏好等)
  • 平台的时间依赖情况(夏季冬季季节偏好等)
  • ...... 以上即为如何通过kmeans来确定一个用户所属的生命周期阶段

*本文参考文献如下: 1.不等长时间序列下的滑窗相似度 2.kmeans距离计算方式剖析

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能LeadAI

译文 | 与TensorFlow的第一次接触(一)

本人对一直对高性能网络服务器,分布式存储比较感兴趣,在BAT时也一直从事架构开发,并没有做过机器学习相关工作,平时喜欢阅读分析开源代码,到目前为止已分析完约8套...

36160
来自专栏数据科学与人工智能

【机器学习】从零实现来理解机器学习算法:书籍推荐及障碍的克服

并非所有的开发者都有机器学习算法的基础知识,那么开发者如何从零入门来学习好机器学习算法呢?本文总结推荐了一些从零开始学习机器学习算法的办法,包括推荐了一些合适的...

29690
来自专栏机器之心

仅需1/5成本:TPU是如何超越GPU,成为深度学习首选处理器的

张量处理单元(TPU)是一种定制化的 ASIC 芯片,它由谷歌从头设计,并专门用于机器学习工作负载。TPU 为谷歌的主要产品提供了计算支持,包括翻译、照片、搜索...

6000
来自专栏程序员叨叨叨

1.2 GPU VS CPU

从上节阐述了GPU的发展历史,那么为什么在CPU之外要发展GPU?GPU 的 vertex programmability 和 fragment program...

15150
来自专栏AI研习社

资深算法工程师万宫玺:Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 分享总结

深度学习是人工智能发展最为迅速的领域之一,Google、Facebook、Microsoft 等巨头都围绕深度学习重点投资了一系列新兴项目,他们也一直在支持一些...

398100
来自专栏机器之心

业界 | 微软RobustFill:无需编程语言,让神经网络自动生成程序

选自Microsoft Research blog 作者:Rishabh Singh等 参与:李泽南 长久以来,摆脱编程语言的束缚,让计算机自我生成程序一直是开...

34550
来自专栏PPV课数据科学社区

【必看工具】可视化图表表达的10个错误。

数据可视化是一个沟通复杂信息的强大武器。通过可视化信息,我们的大脑能够更好地抓取和保存有效信息,增加信息的印象。但如果数据可视化做的较弱,反而会带来负面效果。错...

30660
来自专栏CDA数据分析师

资源 | 2017年最流行的15个数据科学Python库

Python 近几年在数据科学行业获得了人们的极大青睐,各种资源也层出不穷。数据科学解决方案公司 ActiveWizards 近日根据他们自己的应用开发经验,总...

19050
来自专栏量子位

手机输入法不好用?谷歌要用AI让你打字更快

陈桦 编译整理 量子位 报道 | 公众号 QbitAI 现在,大部分人的日常生活,都离不开手机上的虚拟键盘,而这其中的大部分人都会觉得虚拟键盘不好用。数据显示,...

38770
来自专栏我是攻城师

25个Java机器学习工具&库

42580

扫码关注云+社区

领取腾讯云代金券