数据分析之RFM分析

探索式分析,主要是运用一些分析方法从大量的数据中发现未知且有价值信息的过程。对于初步探索性分析而言,数据可视化是一个非常便捷、快速、有效的方法,你可以使用作图、制表等方法来发现数据的分布特征,然后可以使用一些统计分析方法更深入地发现数据背后的信息。常用的探索性分析方法包括RFM分析、聚类分析、因子分析、对应分析等。

文/黄成甲

RFM分析

应用背景:

在产品迭代过程中,通常需要根据用户的属性进行归类,也就是通过分析数据,对用户进行归类,以便于在推送及转化过程中获得更大的收益。

分析方法:

RFM分析(Recency,Frequency,Monetary)

分析工具:

SPSS(数据分析的重量级应用,与SAS二选一)

一.RFM基础知识

所谓探索性分析,主要是运用一些分析方法从大量的数据中发现未知且具有价值信息的过程。

常用的探索性分析方法包括:RFM分析、聚类分析、因子分析、对应分析等。

RFM的含义:

R(Recency):客户最近一次交易时间的间隔。R值越大,表示客户交易发生的日期越久,反之则表示客户交易发生的日期越近。

F(Frequency):客户在最近一段时间内交易的次数。F值越大,表示客户交易越频繁,反之则表示客户交易不够活跃。

M(Monetary):客户在最近一段时间内交易的金额。M值越大,表示客户价值越高,反之则表示客户价值越低。

RFM分析就是根据客户活跃程度和交易金额的贡献,进行客户价值细分的一种方法。

RS:基于最近一次交易日期计算的得分,距离当前日期越近,得分越高。例如5分制。

FS:基于交易频率计算的得分,交易频率越高,得分越高。如5分制。

MS:基于交易金额计算的得分,交易金额越高,得分越高。如5分制。

RFM总分值:RFM=RS*100+FS*10+MS*1

RFM分析的主要作用:

识别优质客户。可以指定个性化的沟通和营销服务,为更多的营销决策提供有力支持。

能够衡量客户价值和客户利润创收能力。

RFM的假设前提:

假设交易的可能性:

最近交易过的客户 > 最近没有交易过的

交易频率高的客户 > 交易频率低的

交易金额大的客户 > 交易金额小的

二.分析实践

RFM接受的数据格式有两种:

交易数据:每次交易占用一行,关键变量是客户ID、交易时间、交易金额。

客户数据:每次交易占用一行,关键变量是客户ID、交易总金额、最近交易日期、交易总次数。

我们通常采用交易数据的格式进行分析。因为交易数据可以整理成客户数据,而客户数据无法还原成交易数据。即用交易数据的字段可以得到客户数据的字段,反之不行。

具体是“交易数据”还是“客户数据”根据数据源文件的格式而定。

变量:选择各个变量。

分箱化:评分的总分是多少。

保存:生成哪些新的变量,可以自定义名称。

输出:可以全部勾选,为了能全面的解读RFM分析结果。

确定后,生成了四个新的变量:

崭新-得分:最后一次交易的时间间隔得分;

频率-得分:交易总次数得分;

消费金额-得分:交易总金额得分;

RFM得分:RFM得分

三.结果解读(最重要的环节)

该图主要用来查看每个RFM汇总得分的客户数量分布是否均匀。

我们期望均匀的分布,若不均分,则应该重新考虑RFM的适用性或尝试另一种分箱方法(减少分箱数目或随机分配绑定值)。

“RFM热图”是交易金额均值在RS和FS绘制的矩阵图上的图形化表示,用颜色深浅表示交易金额均值的大小,颜色越深,表示相应矩阵块内的客户交易金额均值越高。

如本例随着RS和FS的分值增大,颜色越来越深,说明客户最近一次交易时间越近、交易次数越多,其平均交易金额越高。

该图是最后一次交易时间、交易总次数、交易总金额之间的散点图。

通过散点图可以清晰直观的看到三个分析指标两两之间的关系,便于指标相关性评估。

本例中,交易总次数和交易总金额存在较为明显的线性关系,而最后一次交易时间和另外两个分析指标之间的相关性较弱。

四.RFM分析应用

为客户分组,即将三个指标分别分为“高”和“低”两种,高于均值的为“高”,低于均值的为“低”。

因此有三件事要做:

计算出各个指标得分的平均值;

将各个变量高于平均分的定义为“高”,低于平均分的定义为“低”;

根据三个变量“高”“低”的组合来定义客户类型;如“高”“高”“高”为高价值客户。

第一步,先计算各个指标的平均值。

一定要勾选平均值,否则输出结果中没有“平均值”。

现在我们得到了各个变量的平均分:3.33,2.99,3.01。

第二步,将各个变量高于平均分值的定义为“高”,否则为“低”。

按照1-2-3-4-5的步骤设置高于平均值的为“2”,也可以设置为“高”

同理去设置FS和MS。

设置后结果如下:

可以在变量设置里设置标签,1代表“低”,2代表“高”,也可以在“重新编码到不同变量”里面设置时就直接定义为“高低”,而不是“1和2”。

第三步:通过各个变量的高低组合,确定客户类型。

第三区域:可以是公式,也可以是具体的数字,其实这里就是输出结果。

第四区域:表示满足的条件。

同理在“变量设置”里对标签就行设置就行。

最终分析结果如下:

通过RFM方法,我们根据用户的属性数据分析,对用户进行了归类。在推送、转化等很多过程中,可以更加精准化,不至于出现用户反感的情景,更重要的是,对产品转化等商业价值也有很大的帮助。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

谷歌大脑深度学习从入门到精通视频课程[10.8]:自然语言处理——词标注

AI100 已经引入 Hugo Larochelle 教授的深度学习课程,会在公众号中推送,并且对视频中的 PPT 进行讲解。课后,我们会设计一系列的问题来巩...

35350
来自专栏新智元

【珍藏】CMU大师对软件工程师的系统建议(附书和论文下载)

【新智元导读】软件工程师想学机器学习,有什么好建议?机器学习专家、卡耐基梅隆大学教授、1-Page公司首席科学家 Alex Smola 在 Quora 上给出了...

39170
来自专栏大数据文摘

一位缺觉的父亲记录了他双胞胎宝宝的睡眠数据 并交给机器学习,结果……

21760
来自专栏新智元

【机器学习爆款App技术解读】如何用“摄像头秒解数独”

【新智元导读】最近一款名叫 Magic Sudoku(魔法数独)的 App 火了,这款 App 能够“用摄像头解数独”,使用了计算机视觉、机器学习和增强现实技术...

43380
来自专栏Seele元一

Seele元一全球首发“多重椭圆曲线的数字签名方法”黄皮书 提供产业公链行业标准

8月10日Seele元一首份密码学领域黄皮书“多重椭圆曲线的数字签名方法”完整版内容正式公开。黄皮书在世界范围内首次提出基于多重椭圆曲线的数字签名方法,解决了特...

16450
来自专栏华章科技

大数据时代的网络分析,如何全盘挖掘大数据?

我们生活在一个互联实体(entities)构成的复杂世界中。人类涉足的所有领域,从生物学到医学、经济学和气候科学,都充满了大规模数据集。

11360
来自专栏大数据文摘

资源 | 从医疗语音到灾难响应,这八大优质数据集快抱走

19530
来自专栏AI科技大本营的专栏

谷歌大脑深度学习从入门到精通视频课程[7.3]:深度学习——非监督的预训练过程

AI100 已经引入 Hugo Larochelle 教授的深度学习课程,会在公众号中推送,并且对视频中的 PPT 进行讲解。课后,我们会设计一系列的问题来巩...

31470
来自专栏GA小站

程序化创意(Programmatic Creative Platform)

这一节来介绍一个大家比较少接触,也比较少听的东西,但一举个实际的例子,不少人可能会说:哦,原来这个就是。这一节要带大家认识的就是程序化创意(Programmat...

35640
来自专栏专知

【干货】机器学习知识体系思维导图,一图让你理解所有概念

机器学习 思维导图 / 速查表 思维导图集从数据分析到深度学习来汇总机器学习概念 Overview 机器学习是计算机科学的一个子领域,使计算机不需要明确的编程步...

94890

扫码关注云+社区

领取腾讯云代金券