商业数据分析案例:客户流失分析之—探索性分析

三、数据探索性分析

1、离散型变量的探索性分析方法

对无序型离散变量而言,以本案例中的手机品牌为例,对于名义型离散变量,关注的是该变量的取值分别有哪些,各个取值占比是多少。从表格上看,列出离散变量各个取值的数量和占比即可:

对有序型商散变量而言,有序型离散变量之间是可以比较大小的,因此还可以通过累积频数和祟积频率的方式来对数据进行展现。以话务量级别为例,可以做出话务量级别频数表,从表中的累积百分比可以看出,13.7%的客户属于低使用率,而95.8%的客户在高使用率及以下。

2、连续型变量的探索性分析方法

对于连续型变量,通常可以使用描述统计量和图形两种方法来进行探索性分析。

• 使用描述统计量:对于连续型变量,常见的描述统计量包括反应变量集中趋势的均值、中位数等;反应分散趋势的最小值、最大值、全距、标准差、变异系数等; 反应分布形态的偏度和峰度。

• 使用图形:对于连续型变量,主要通过直方图和箱线图的方式来对数据的分布状况进行考察。

3、变量之间关系的探索性分析方法

1) 离散变量与离散变量

离散变量与离散变量之间的关系可以使用条形图进行查看,将其中一个变量在图形中 用不同的颜色显示来直观地观察出变量之间的关系,也可以使用网络图开显示,通过各个要素之间是有线条联系、线条粗线来显示是否有关系以及关系强弱。

例如,不同手机品牌的流失情况有着明显区别,在网络图中可以得到和条形图一样的结论,即ASAD90、CAS30、SOPIO和SOP20四个品牌的手机与流失关系密切。

如果希望得到两个离散变量之间关系的量化描述,可以使用交叉表来显示,从下图中可以看出每个手机品牌的流失与不流失人数及百分比,而最下面的卡方值和概率则表明从统计意义上两者是否无关,在这个案例中,看到概率=0,是一个很小的数值,说明两者的关系是显著的。

2) 离散变量与连续变量

对于离散变量和连续变量之间的关系,可以使用直方图进行查看,将其中的离散变量在图形中用不同的颜色显示来直观地观察变量之间的关系。也可以使用箱线图来查看连续变量与离散变量之间的关系。在图形中,每个箱线图代表一个离散变量的取值。

例如,对于连续变量高峰时期通话时长与流失之间的关系,使用箱线图以体现两个变量之间的关系。

如果希望得到离散变量与连续变量之间的量化关系,则可以使用统计分析中的方差分析方法,从下图中可以看出,从统计意义上讲,在0.05显著性水平下。流失客户与不流失客户的高峰时期通话时长有着显著差异。

3) 连续变量与连续变量

对于连续变量与连续变量之间的关系,可以使用散点图进行直观展示。例如,对于高峰时期通话数和高峰时期电话时长的关系,可以得到下图的结果:

因此,在本案中,我们使用如下的分析内容:

从上图可以看出,性别与流失的关系似乎不是很密切,男性和女性流失比例相差不大。

手机品牌与流失相关性很大,其中ASAD90、CAS30、SOP10及SOP20的流失比例尤其高,猜测这些手机品牌可能使用体验(例如,信号强度、使用方便性) 较差,或许这是造成客户体验下降从而流失的根本原因,当然这只是根据数据得到的结论,实际情况如何,还需要和业务人员充分讨论,如果证实了猜测,那么或许对这些客户推荐(或赠送)其他手机品牌将是一种非常有效的挽留手段。

话务量级别与流失之间有一定的关系,低使用率客户流失比率要高一些,这和我们的业务经验一致。

话费合理性与流失之间关系密切。在3种话费方案不合理(HighCAT50、HighCAT100 及High Play100)的情形下客户流失比率远高于话费合理情形的流失比率,这提示我们的客户是非常聪明的。尽管在话费不合理情况下,可以短期内获得超额利润,但是难以长久,可以建议业务部门关谊这一点,向客户推荐更加适合的话费方案。

对高峰时期通话行为相关的连续变量与流失之间的关系的探索性分析,得到:

流失似乎和高峰时期通话行为的关系并不是特别密切,但大致可以看出高峰时期通话时间较少、高峰时期通话时长取值很低或者很高、高峰时期通话时长被动大、高峰时期平均每次通话时长较长的客户似乎流失倾向更大一些。至于流失与各连续变量关系更细致的分析,我们将通过后面的建模过程来完成。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏奇点大数据

人工智能与大数据的完美结合

人工智能(AI)已经存在几十年了。然而,最近随着“大数据”的出现,它得到了越来越多的关注。维基百科对人工智能的释义如下:

1502
来自专栏机器之心

观点 | 论机器学习和编程语言:ML需要专用的计算机语言吗?

3717
来自专栏PPV课数据科学社区

论数据分析、数据挖掘、数据统计、OLAP 之间的差异是什么?谁的观点你最赞同?

Han Hsiao 观点: 简单说:数据挖掘就是从海量数据中找到隐藏的规则,数据分析一般要分析的目标比较明确,数据统计则是单纯的使用样本来推断总体。 主要区...

3834
来自专栏哲学驱动设计

结构化思维-思维的结构

    我原来在"这篇总结"中总结过一种的思维方式:TT(Tree-Thinking)。(嘿嘿,程序员嘛,喜欢用本行的术语(Tree)来解释一些现象。)一直以来...

2268
来自专栏程序员笔记

一项针对学习方法的研究

1704
来自专栏AI研习社

能理解聊天记录的微信机器人 (三)

聊天机器人部署了一周了。花了几个小时的时间做了一些改动,有意思的部分主要有: 和 ElasticSearch 和 Kibana 连了起来,现在有了实时监控和可视...

3088
来自专栏量子位

人人能上手:OpenAI发射初学者友好的强化学习教程 | 代码简约易懂

他们刚刚发射了一套强化学习 (RL) 入门教程,叫做Spinning Up。真诚友好,无微不至。

1185
来自专栏Crossin的编程教室

Python 向人工智能方向发展的技能树

有不少同学学习 Python 的原因是对人工智能感兴趣,有志于从事相关行业。今天我们来聊聊这个方向所需要的一些技能。

2022
来自专栏新智元

大脑确实像计算机一样思考,类脑计算完全有望实现人类智能

【新智元导读】大多数神经学家认为,大脑通过改变脑细胞或神经元之间的连接及其强度学习。但有实验结果表明,大脑的学习方式更类似计算机:将信息编码到神经元内的分子中,...

2867
来自专栏新智元

谷歌新目标——让计算机实现自我编程,自主机器时代不再遥远

【新智元导读】 许多人对AI的想象都停留在应用层,而忽视了技术层AI也将产生颠覆——让机器自己编程。谷歌大脑、DeepMind、Facebook甚至Viv 都在...

3506

扫码关注云+社区

领取腾讯云代金券