R语言案例实战——寻找KPI用户特征

如果你在数据科学领域还只是个新手,那么建议你先看看——《

五本书带你入门数据科学

》。

需求

游戏在前期的运营中,通过各种拉新策略,可以持续地获取新用户。但是在最近的一段时间内,新用户的增长开始停滞不前。因此,运营部门需要开始规划对老用户的激活操作,提高用户的核心业绩指标(KPI)。

运营部门通过日常的数据报表发现,高活跃的付费用户大部分在游戏排行榜上排名靠前。因此,运营部门想通过研究用户的行为,来确定哪些用户的行为,可以提高用户在排行榜上的排名。知道哪些行为可以提高用户的排名后,运营部门就可以通过制定相关的鼓励措施,来鼓励用户去进行对应的操作,从而达到提高KPI指标的目的。

根据这些需求,需要解决以下问题:

1、确定游戏排行榜靠前用户的具体数量

2、找出游戏排行榜靠前用户的不同类型

数据收集

要解决以上问题,我们需要收集以下数据:

1、DAU数据

包括活跃日期和用户ID。

2、DPU数据

包括付费日期、用户ID以及付费金额。

3、用户行为数据

包括活跃日期、用户ID以及用户的54个活跃行为的次数的数据。

数据处理

和前面的案例一样,先整理出一份按月汇总的用户活跃以及消费数据。

执行代码,即可得到用户的月活跃以及消费数据,如下所示:

数据分析

首先来确定游戏排行榜靠前的用户数量。

我们不能通过粗暴的方式,来确定这个数量为10%,100,还是500,有一种更加科学的方法可以确定这个数量,这个方法就是聚类。

在聚类的算法中,kmeans聚类算法,是最常用的聚类方法,它的计算原理,如下图所示。

在用户行为数据中,A47这一列,为每个用户当天在游戏排行榜中的分值,对这一列使用kmeans聚类算法,即可得到每个用户由kmeans聚类算法得到的类型是什么了。

执行代码,可以看到,第一类的用户有 2096 人、第二类的用户有 479 人、第三类的用户有 78 人,我们通过游戏排行榜得分这一列的数据作为 y 轴,排名的大小作为 x 轴,绘制出以下图形。

可以看到,2、3 类(绿蓝色线段)为游戏排行榜排名靠前的用户,1 类(红色线段)为游戏排行榜排名靠后的用户,由此,我们就可以确定游戏排行榜靠前的用户数量为 78+479=557。

解决了第一个问题之后,接下来我们来看看第二个问题,找出游戏排行榜靠前的用户的核心行为。

数据建模

为了方便接下来的模型搭建,我们需要再做一次数据的清洗,清洗的操作包括:

1、删除 user_id 和 log_date 列,因为它们对 kmeans 聚类模型没有起到任何的作用;

2、删除方差接近于 0 的列,因为一列的方差如果接近于0,证明这一列并不存在差异性,列的值都非常接近;

3、删除相关系数非常接近的列,这里设置的阈值为0.7,也就是高度相关的列只保留一列。

数据处理的代码如下所示:

执行代码,即可得到数据清洗之后的结果:

因为剩下的特征值还是非常多,为了可以使用散点图来分析聚类的结果,先对数据进行主成分分析,然后再进行聚类操作。

可以看到,类型2的用户最多,类型1的用户最少,下面我们使用第一、第二主成分作为x轴和y轴,来绘制多维散点图,代码如下所示:

执行代码,即可得到聚类的多维散点图,效果如下所示:

数据可视化

为了更加方便解读每个类别背后代表的意义,下面使用雷达图的方式,来对聚类的结果进行解读。

前面已经讲到,因为用于聚类的特征很多,所以这里我们只筛选最核心的指标来进行绘图展示,筛选的方法和前面一致,只保留相关系数很高的一列即可,代码如下所示:

执行代码,即可得到以下的数据:

为了更加方便地解读聚类的结果,我们需要把列名修改为真实的列名,以及画出雷达图。

执行代码,即可得到如下雷达图:

我们来解读一下雷达图的结果:

1、第1类(红色直线)是典型的轻度用户,对游戏不太上心,各方面指标都很低,总共23人;

2、第2类(绿色短虚线)只在对战敌方首领的次数上比较高,但因为其他类型的用户,在这一指标上也很高,因此,这类型的用户只是比轻度用户稍微高活跃一点而已,总共228人;

3、第3类(青色点线)参与战斗次数最高,因此级别也很高,可见是为了高级别而参与游戏的,这个是游戏的另外一个排行榜,总共88人;

4、第4类(蓝色点虚线)指标上和第5类(紫色长虚线)的接近,因为参与游戏和参与战斗次数比较少,所以在排行榜分数上就落后了,总共164人;

5、第5类(紫色长虚线)是游戏排行榜的巅峰用户,指标非常好,在参与游戏的次数等指标上都非常高,总共54人。

以上,就是聚类结果的解读。

总结

最后,我们来结合用户的付费以及活跃指标,来看看每个类别用户对KPI指标的贡献:

可以看到,第5类的用户,在游戏排行榜上排在顶级的用户,付费和活跃的天数都是最高。但是,不容忽视的是,被我们划为轻度用户的第1类用户,虽然在活跃指标上比不上第5类用户,但是在付费上,是排行第二的。由此可见,他们是属于那种,觉得这个游戏是不需要那么努力打,充钱就能快速变强的用户(事实是不可能的,游戏一定是要充钱并且努力打,才能真正地变强的,二者缺一不可)。

综合前面的分析,我们给运营部门提出以下的建议:

第1类用户是现在和未来的金主(核心KPI用户),因此,我们要特别保持他们的活跃,不能让他们流失了;

第2类用户是最容易流失的用户,他们付费意愿不高,但是整体人数很多,是典型的不付费、不活跃用户;

第3类用户满足于等级的高低,只做可以提高等级的游戏操作,而且目前游戏等级的提升过于简单,17天的活跃即可保持高等级了,可以提高救援他人的次数这个指标在等级的权重;

第4类用户属于沉迷游戏的高活跃用户,但是他们不喜欢付费,喜欢通过游戏策略保持高排名。因此可以通过更多的优惠策略,来吸引这部分用户进行充值消费;

第5类用户属于沉迷游戏的高活跃付费用户,是游戏的核心用户。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180803G1EOZ000?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券