前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >客户画像中的聚类分析

客户画像中的聚类分析

作者头像
许卉
发布2019-07-15 17:23:55
1.6K0
发布2019-07-15 17:23:55
举报
文章被收录于专栏:Data AnalystData Analyst

客户画像会用聚类分析

实际工作中,最常使用的当属回归类模型,其次便是客户画像。即便是评分模型也会涉及到客户画像,由于首富客户的违约特征与普通百姓不同,故需进行区分,信用分池即为客户画像

客户画像使用的技术为聚类分析在营销场景中经常会逻辑回归模型与聚类分析一起配合构建模型

聚类分析是什么?

聚类分析可以理解为利用数据公式具体的计算样本的相似程度,将相似的样本归为一类,将不相似的样本归为一类,。

例如:

  • 对奶茶加盟店的经营业绩进行分类;
  • 对来商场消费的客户进行分类;
  • 评估一个产品的好坏时,将繁复的评价指标进行分类,从而简化评估体系

聚类分析专门针对看上去不好区分、但必须区分的数据。决策树、逻辑回归模型以及神经网络中皆有Y,样本中已经区分出了好坏,最终好坏样本差距越大则说明模型效果越好,如好坏样本无差别,则模型有错误需要修正。但如果样本中没有Y,则加大了好坏样本的区分难度,此时便需要使用聚类分析

聚类分析与逻辑回归是不同的模型体系

模型可以大致理解为两种:

  • 有监督模型、验证性模型、预测模型有X有Y,例如逻辑回归模型、决策树模型以及神经网络
  • 无监督训练模型、探索模型、模式发现有X无Y例如聚类分析,有Y无X例如产品推荐算法

需要说明的是,模式发现实现的技术较多,但是大部分只是存在于博士论文之中,实际工作中能够到的很。由于与预测类模型相比,模式发现对数据的要求极高,例如,在从实际应用效果的角度来看,聚类分析对数据的要求要比所有的分类选择模型的要求高许多,即聚类分析的假定要严格许多,只是大部分情况下, 人们使用聚类分析的时候,不会提及到它的假定罢了。

聚类分析的弊端?

决策树有一个最大的弊端,即变更数据集后,做好的规则变动较大,即便变量固定仅仅换了观测,决策树的结果也会完全不同,但是,即便决策树的变动性如此大,决策树都要比聚类分析稳定的多

可见聚类分析是如此的不稳定,因此想做好聚类分析,必须要遵循完整的数据分析流程,才能够保证建模数据的稳定以及结果的可靠

聚类分析的流程?

聚类分析的基本流程为:

  • 数据准备:包含变量与观测的选择、变量的分布分析以及量纲选择
  • 聚类分析过程
  • 聚类后处理:包含类数的确定以及标签的确定
  • 模型的部署

需要注意的是,虽然变量聚类也带有聚类两个字,但是并不是聚类分析算法,而是一种主成分分析。而且,由于业务人员不懂聚类算法,所以需要聚类分析后,构建完善相应的标签系统

红楼梦到底谁写的?

可以使用聚类分析来判断红楼梦的作者,通过分析红楼梦的语言风格,将红楼梦120回中的每一回视作一个观测,将虚词频次视作分析变量,做聚类分析。

单独对前八十回进行聚类分析,分析发现前八十回语言风格非常相似,则可以判断前八十回的作者为同一人(曹雪芹);单独对后四十回进行聚类分析,分析发现后四十回无法聚为一类,则可判断后四十回的作者并非为同一个人;对前八十回与后四十回进行聚类分析,分析发现前后两部分无法聚为一类,则可判断后四十回可能不是曹雪芹所写。

所以,关于红楼梦的作者,很多资料中说其前八十回由曹雪芹所著,后四十回由无名氏编写高鹗编辑,很有意思

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-04-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Data Analyst 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档