专栏首页CDA数据分析师专栏 | 案例:电信用户分群精准画像的7个步骤

专栏 | 案例:电信用户分群精准画像的7个步骤

“每天一个数据”分析师新一期内容奉上,请享用~

转载请注明来自CDA数据分析师 否则小编将举报到底!

本期我们有幸采访到的嘉宾名叫兰锦池,2012年硕士毕业,概率论与数理统计专业,崇尚概率论和统计学解决问题的思想,喜爱折腾各种实际数据,愿意跟数据挖掘模型死磕。

现在他是一名资深数据挖掘工程师,主要负责用户行为分析和精准营销相关工作;曾做过某电信省公司的手机用户行为价值分群、手机终端升级概率预测模型、用户流失预警模型等。

在兰锦池看来,工作中最困难的还是数据源的采集和结构化数据的获取,比如曾经做用户的手机上网行为画像,需要采集手机上网日志数据,并转化为兴趣点数据。需要数据分析狮提出数据需求、采集规则、计算口径等非常详细的方案,期间还得与业务和数据采集部门深入合作。简而言之,就是,数据分析狮不仅仅是呆板的技术人员,而且能沟通协调、整合资源的多面手。

本期,他带来了一个电信用户分群案例,与大家分享。


1、业务问题背景

某省电信运营商e8套餐(宽带+固话)升级e9(宽带+固话+手机)的主要业务目标为针对e8客户加装电信C网号码并购买手机,升级为e9融合套餐或e9自主套餐用户。即,通过电信的自身的宽带客户资源,进行精准电话营销,促使用户购买手机,从而提升电信在手机市场的占有率。

2、数据理解:e8升e9的数据理解

规则项

数据理解结论

工作内容解释

数据源范围

- 内部数据

由于e8用户都是本网客户,内部已基本拥有较为全面的客户信息,因此数据源基本通过内部数据即可。

数据源可提供信息

- 68个字段,已较全面覆盖挖掘需求

内部数据目前已拥有客户属性信息、产品信息、通信行为信息和价值信息。

数据可用性

- 可用

宽表数据通过长期累积,各字段口径已基本完全确认并可用。

数据挖掘方向

- 预测客户购买概率- 探索客户需求偏好

针对e8客户进行加装C网手机的概率进行预测,对客户的营销优先级进行排序。探索不同客户群体的需求偏好,以确定营销过程中选择客户最感兴趣的需求点切入。

3、确定分析对象

本环节关键点:

缩小分析基础客户群范围,从表中238万宽带客户中筛选出24万符合业务目标的e8客户,作为数据挖掘的基础客户群

具体步骤:

常用的数据挖掘基础客户群筛选维度如下

  • 客户群筛选,如宽带客户、手机客户、固话客户
  • 套餐大类筛选:如e8、e9、乐享
  • 特定业务规则筛选:如活动对客户网龄、套餐档位的限定
  • 互斥协议等筛选:根据活动规则,对已有互斥协议的客户进行筛选

分析对象筛选流程:

以e8升e9为例,根据前期业务和数据理解,本次挖掘的基本目标客户为e8用户,且在同账户下无C网手机。

具体数据样本选取路径如下:

注,具体操作方法:

  • e8客户筛选操作:选择客户“套餐类型”字段为“e8”的客户
  • e8客户无C网手机筛选过程:将所有e8客户的ACC_ID字段与“CDMA单月宽表”进行关联,能关联出C网号码的即视为同账户下有C网手机。形成241243数据样本。

4、变量筛选

以e8升e9案例中变量处理为例,具体筛选流程如下:

  • 通过对67个字段明显无关字段初步筛选后获得18个主要字段。
  • 此后,需根据字段理解对有明显相关性的变量进行筛选合并,如下面表格中的红色字段,宽带上行流量、宽带下行流量和宽带总流量三个字段存在明显的关联关系,因此根据业务需求可直接只选择宽带总流量进行分析即可。
  • 对于不确定是否有相关性的部分字段,可通过SPSS中“输出”模块中的“统计量”节点进行相关性判断。通常分析相关性结果大于0.666以上可基本判断相关性较强。例如:宽带使用流量字段与其他字段进行关联性分析,发现与宽带使用时长存在较强的相关性,因此这两个个字段可选择其中一个作为输入变量即可。
  • 最终确定模型的10个主要输入变量。

5、决策树模型的建立

(1)选择模型输入变量

根据数据准备阶段字段筛选结果选择了9个字段作为模型输入变量。CHAID节点对应的目标变量和预测变量设置,见下截图。

(2)模型输出结果

运行CHAID决策树节点后,Modeler会根据样本数据和输入变量训练决策树模型。虽然输入了9个变量但是CHAID决策树节点训练的模型最终生成决策树所选择的变量只有5个,分别是宽带在网时长(PD_PROM_FEE)、固话通话时长(VO_MOU_FIX_AVG)、固话ARPU(MB_FIX_ARPU_AVG)、宽带在网时长(PD_BB_TENURE)、宽带流量(VO_BB_VOL)。可以看出,这5个变量在都是具有重要业务含义的字段,基本符合建模目标。

(3)决策树输出的初步结果

下图,是决策树模型输出的结果,树状结构末端的每个“叶子”,代表一个细分用户群体。这个决策树结果共有17个“叶子”节点。

6、模型调优

e8升级e9模型中,决策树模型验证调优流程如下:

初步结果判定:

决策树结果共有17个“叶子”节点,用户细分群体偏多,部分群体的规模小,占比不足5%,因此需要根据各叶子节点的特征,对决策树的“叶子”进行修剪合并。

比如,上图中的节点1(套餐档位<=68元的用户),这个节点中的类别“1”用户占比仅0.56%,较全样本的整体类别“1”占比0.786%较低,说明套餐档位<=68元的用户都是质量较差的部分,加装3G手机的可能性较低。从选取营销目标用户的角度,对这类用户不需要进行深入分析,因此可以把该节点下面的三层节点都剪裁合并。

模型的调整和优化—子模型的建立

如果认为决策树的某个子节点对应的决策树规则不符合业务逻辑,则可选择该决策树节点下的样本再建立一个子模型,从新选择新的变量。

比如,对上述决策树模型的结果,在套餐档位为80~98元且宽带在网时长13个月以上的样本分了四个子节点,但是这四个节点的类别“1”占比并没有递增或者递减的规律,这在业务逻辑上很难解释。因此可针对该条件(套餐档位为80~98元且宽带在网时长13个月以上)的样本数据,再单独建立一个决策树模型。

决策树子模型的建立可参见如下截图。首先,利用Modeler的样本选择节点,选择套餐档位为80~98元且宽带在网时长13个月以上的样本数据;然后,在决策树模型的节点选择输入变量时,不要选择宽带在网时长的字段,即调整输入变量;这样Modeler会根据新选择的样本和输入变量建立一个新的决策树模型(见下图)。这就建立了一个更具有业务解释性的决策树子模型。

7、模型结果解释

具体分群的数据结果如下:

根据三个主要判断分群有效的原则,选择提升倍数在1.3以上、客户群规模占比5%以上的群体作为主要目标客户,一共4个客户群。上述的群划分规则即建模变量。

通过决策树模型筛选出目标用户群后,需要进一步根据不同细分目标群体的消费行为特征来推测客户的主要业务需求。此时需要根据e8升e9的业务目标,选择主要的字段来刻画客户特征。通常对客户群各变量的均值来进行描述,具体如下:

因此,具体客户特征总结描述如下:

本文分享自微信公众号 - CDA数据分析师(cdacdacda),作者:免费訂阅☛

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-11-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 谷歌教你学 AI-第五讲模型可视化

    Google Cloud发布了名为"AI Adventures"的系列视频,用简单易懂的语言让初学者了解机器学习的方方面面。今天让我们来看到第五讲模型可视化。 ...

    CDA数据分析师
  • 非计算机专业如何转行AI,找到算法offer?

    目前,各行业都在尝试着用机器学习/深度学习来解决自身行业的需求。在这个过程中,最为稀缺的也是高质量人工智能人才。 这一年我们见证了不断有非计算机专业学生转行人工...

    CDA数据分析师
  • Python之爬虫框架概述

    综述 爬虫入门之后,我们有两条路可以走。 一个是继续深入学习,以及关于设计模式的一些知识,强化Python相关知识,自己动手造轮子,继续为自己的爬虫增加分布式...

    CDA数据分析师
  • 如何基于 DDD 构建微服务?

    本文将讨论微服务与 DDD 涉及到的概念、策划和设计方法,并且尝试将一个单体应用拆分成多个基于 DDD 的微服务。

    深度学习与Python
  • 九三摸象-第四范式“先知”平台 | 企业AI核心系统 | 解读产品

    第四范式就是给各行各业提供人工智能技术与服务的。愿景是能够基于行业应用场景及痛点,用机器学习技术开发出解决方案,为企业提升商业价值,找到下一个增...

    用户7623498
  • Python基础知识点梳理4,推荐收藏

    使用Python进行网络编程时,实际上是在Python程序中本身这个进程内,连接到指定服务器进程的通信端口进行通信,所以网络通信也可以看成两个进程间的通信。

    龙哥
  • 张高兴的 .NET Core IoT 入门指南:(五)串口通信入门

    在开始之前,首先要说明的是串口通信所用到的 SerialPort 类并不包含在 System.Device.Gpio NuGet 包中,而是在 System.I...

    张高兴
  • 【平台】Seldon.io发布新开源平台,用于Kubernetes上的机器学习

    机器学习部署有很多挑战,但是新的Seldon Core打算帮助它的新的开源平台,用于在Kubernetes上部署机器学习模型。 ? Kubernetes(通常称...

    AiTechYun
  • Element 多个相同类型的输入框共用一条校验规则

    在Element中一个输入框对应一条校验规则,如果有多条相同类型的输入框想共用一条校验规则,如何实现呢?以下是代码实现(官网其实有介绍):

    越陌度阡
  • AI产业核心研究:芯片四大流派论剑,中国能否弯道超车

    ?   随着AI产业快速突破,各大公司在AI领域的人才动向也在引起极大关注,你来我往、归去来兮,AI江湖上大有一片血雨腥风之势。当然,AI领军人物的变动,会对...

    腾讯研究院

扫码关注云+社区

领取腾讯云代金券