前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >商业数据分析案例:客户流失分析之—数据理解与数据准备

商业数据分析案例:客户流失分析之—数据理解与数据准备

作者头像
沉默的白面书生
发布2018-09-30 10:38:06
1.9K1
发布2018-09-30 10:38:06
举报
文章被收录于专栏:全栈数据化营销

二、数据理解与数据准备

在数据理解与数据准备阶段,对数据做初步的探索性分析,了解数据质量状况,考察数据的大致分布情况,此外还要将各方面的数据合并,整理成可以进行数据挖掘的宽表形式(即行代表记录、列代表变量的二维表),并进一步根据业务上的考虑,生成一些有业务含义的衍生变量。

1、分析的数据基础

(1)数据表1: 客户基本信息表(custinfo.csv)

(2)数据表2: 客户通话情况表(custcall.csv)

这张表是客户的月度通话行为数据,根据客户通话详单记录汇总而来。高峰时期是指典型的工作时间(周一至周五早8:00至晚6点),非高峰时间是指典型的不含周末的非工作时间(周一早0:00至早8:00、周一至周四晚6点至次日早8点和周五晚6点至周五晚 24:00),周末时间是指周六早0:00至周日晚24:00的时间。具体变量含义及取值范围见下表:

(3)数据表3:客户是否流失标记表(churn.csv)

(4)数据表4: 话费方案表(tari行.csv)

这张表是话费方案衰,也就是营销中所谓的套餐规则。假设话费方案的形式相同,都是每个月交一定的固定费用,会送一定的免费国内通话时间,超过该时间段部分会按照高峰时期、非高峰时期和周末进行计费,另外国际长途也会根据通话方案的不同,按照不同的标准收费,具体变量含义及取值范围参见下表:

2、生成数据挖掘表

从业务系统中取出的数据都是根据业务的需要考虑设计的,但往往不能达到取得良好 数据挖掘结果的目的,这时需要对数据进行各种变换或者生成相关的衍生变量。

在数据准备过程中,从业务和数据分析的角度出发,对数据做了如下处理:

• 将客户6个月的各类通话行为数据进行月度汇总,生成若干汇总变量,这些变量体现了客户通话行为的绝对值状况。主要有以下指标数据:

1)高峰时期、非高峰时期、周末时期电话数

2)高峰时期、非高峰时期、周末时期通话时长

3)国际电话时长

4)国内电话话费

• 生成若干比例指标和强度相对指标,用来反映客户通话情况的相对值状况,包括如下内容11个指标:

1)国内电话数合计、国内通话时长合计、所有通话时长合计

2)高峰时期、非高峰时期、周末时期、全部国内平均每次通话时长

3)高峰时期、非高峰时期、周末时期通话时长占比(与国内通话时长比)以及国际通话时长占比

• 生成若干反映客户话费状况的指标,尤其是其中的话费方案合理性指标,反映了客户选择的话费方案是否与客户的实际消费状况相匹配,主要如下内容6个指标:

1)客户付费通话时长

2)客户国内实际通话费用及总通话费用

3)平均每分钟国内通话成本与平均每分钟总通话成本

4)话费方案是否合理标记变量

• 生成若干反映客户通话行为趋势和波动状况的指标,包括如下内容6个指标:

1)高峰时期通话时长趋势与波动

2)非高峰时期通话时长趋势与波动

3)周末时期通话时长趋势与波动。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018.09.25 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档