商业数据分析案例:客户流失分析之—数据理解与数据准备

二、数据理解与数据准备

在数据理解与数据准备阶段,对数据做初步的探索性分析,了解数据质量状况,考察数据的大致分布情况,此外还要将各方面的数据合并,整理成可以进行数据挖掘的宽表形式(即行代表记录、列代表变量的二维表),并进一步根据业务上的考虑,生成一些有业务含义的衍生变量。

1、分析的数据基础

(1)数据表1: 客户基本信息表(custinfo.csv)

(2)数据表2: 客户通话情况表(custcall.csv)

这张表是客户的月度通话行为数据,根据客户通话详单记录汇总而来。高峰时期是指典型的工作时间(周一至周五早8:00至晚6点),非高峰时间是指典型的不含周末的非工作时间(周一早0:00至早8:00、周一至周四晚6点至次日早8点和周五晚6点至周五晚 24:00),周末时间是指周六早0:00至周日晚24:00的时间。具体变量含义及取值范围见下表:

(3)数据表3:客户是否流失标记表(churn.csv)

(4)数据表4: 话费方案表(tari行.csv)

这张表是话费方案衰,也就是营销中所谓的套餐规则。假设话费方案的形式相同,都是每个月交一定的固定费用,会送一定的免费国内通话时间,超过该时间段部分会按照高峰时期、非高峰时期和周末进行计费,另外国际长途也会根据通话方案的不同,按照不同的标准收费,具体变量含义及取值范围参见下表:

2、生成数据挖掘表

从业务系统中取出的数据都是根据业务的需要考虑设计的,但往往不能达到取得良好 数据挖掘结果的目的,这时需要对数据进行各种变换或者生成相关的衍生变量。

在数据准备过程中,从业务和数据分析的角度出发,对数据做了如下处理:

• 将客户6个月的各类通话行为数据进行月度汇总,生成若干汇总变量,这些变量体现了客户通话行为的绝对值状况。主要有以下指标数据:

1)高峰时期、非高峰时期、周末时期电话数

2)高峰时期、非高峰时期、周末时期通话时长

3)国际电话时长

4)国内电话话费

• 生成若干比例指标和强度相对指标,用来反映客户通话情况的相对值状况,包括如下内容11个指标:

1)国内电话数合计、国内通话时长合计、所有通话时长合计

2)高峰时期、非高峰时期、周末时期、全部国内平均每次通话时长

3)高峰时期、非高峰时期、周末时期通话时长占比(与国内通话时长比)以及国际通话时长占比

• 生成若干反映客户话费状况的指标,尤其是其中的话费方案合理性指标,反映了客户选择的话费方案是否与客户的实际消费状况相匹配,主要如下内容6个指标:

1)客户付费通话时长

2)客户国内实际通话费用及总通话费用

3)平均每分钟国内通话成本与平均每分钟总通话成本

4)话费方案是否合理标记变量

• 生成若干反映客户通话行为趋势和波动状况的指标,包括如下内容6个指标:

1)高峰时期通话时长趋势与波动

2)非高峰时期通话时长趋势与波动

3)周末时期通话时长趋势与波动。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

机器人:我不是药神,我只医生的小帮手 | ICRA 2018

小编最近看了场悲伤的电影,由程勇“印度仿制药”一案改编而成的电影,《我不是药神》。

1012
来自专栏大数据文摘

川普就职演讲弱爆了?IBM沃森文本分析历任总统誓词后这样说

1914
来自专栏DT数据侠

下一家星巴克会开在哪?看AI破译选址“秘诀”

对生意人来说,店铺的选址一向是个颇为“考究”的事情。在大数据和算法的帮助下,这件事今后或许可以交给机器和模型来完成。在本文中,美国的一位数据侠Mario Aks...

1440
来自专栏钱塘大数据

【数据视觉盛宴】2017最美可视化作品欣赏

“信息之美奖”全名为“凯度信息之美奖”(The Kantar Information is Beautiful Awards),是为了嘉奖信息与数据可视化的优秀...

3924
来自专栏新智元

【深度学习看手相】台湾学生获奖 AI 项目是科学还是伪科学?

【新智元导读】 本周日带来一个有趣的研究——台湾的研究者使用深度学习用于看手相的项目。他们结合了看手相、深度学习和聊天机器人,以2000张人手照片作为基础数据,...

5948
来自专栏ATYUN订阅号

【业界】机器学习算法的透明度是一把双刃剑,该如何应对?

? 欧盟的通用数据保护条例(GDPR)将于2018年5月25日生效,它重新定义了组织如何处理欧盟公民个人数据的收集和使用。 关于GDPR的争论,主要是因为这个...

3704
来自专栏AI科技评论

视频 | 机器人:我不是药神,我只医生的小帮手 | ICRA 2018

这里是,雷锋字幕组编译的 ICRA 2018 系列,带你了解机器人与自动化领域的最新研究成果。

1393
来自专栏新智元

CVPR 2018:剑桥大学等研发“暴力行为”检测系统,用无人机精准识别人群暴力

3835
来自专栏量子位

今年的NIPS大会还没开,但五大AI竞赛已在PK中

陈桦 编译整理 量子位 出品 | 公众号 QbitAI ? 如果希望推动创新,那么举办比赛是个好主意。这就是NIPS(神经信息处理系统)大会提出的设想。在今年的...

3736
来自专栏PPV课数据科学社区

数据挖掘之用户细分的三大维度

一般来说,细分可以根据三个方面的考虑来进行: 1. 外在属性 如用户的地域分布,用户的产品拥有,客户的组织归属——企业用户、个人用户、政府用户等...

2883

扫码关注云+社区

领取腾讯云代金券