数据分析之聚类分析

RFM分析只能对客户的行为进行分析,包含的信息量有点少。一般来说,对人群进行分类,要综合考虑其行为、态度、模式以及相关背景属性,通过使用特定的方法,发现隐藏在这些信息背后的特征,将其分成几个类别,每一类具有一定的共性,进而做出进一步的探索研究。这个分类的过程就是聚类分析。

文/黄成甲

聚类分析

聚类分析,就是按照个体的特征将它们分类,目的在于让同一个类别内的个体之间具有较高的相似度,而不同类别之间具有较大的差异性。这样,就能够根据不同类别的特征有的放矢地进行分析,并制定出适用于不同类别的解决方案。

聚类可以对变量进行聚类,但是更常见的还是对个体进行聚类,也就是样本聚类。例如对用户、渠道、商品、员工等方面的聚类,聚类分析主要应用在市场细分、用户细分等领域。

为了合理的聚类,需要采用适当的指标来衡量研究对象之间的联系紧密程度,常用的指标有“距离”和“相似系数”,相似系数一般指的是相关系数。假设将研究对象采用点表示,聚类分析时,将“距离”较小的点或“相似系数”较大的点归为同一类,将“距离”较大的点或“相似系数”较小的点归为不同的类。

聚类分析具有如下特点:

1.对于聚类结果是未知的,不同的聚类分析方法可能得到不同的分类结果,或者相同的聚类分析方法但是所分析的变量不同,也会得到不同的聚类结果;

2.对于聚类结果的合理性判断比较主观,只要类别内相似性和类别间差异性都能得到合理的解释和判断,就认为聚类结果是可行的。

聚类分析可以应用于以下场景:

聚类分析应用场景

聚类分析的步骤:

(1)确定需要参与聚类分析的变量;

(2)对数据进行标准化处理;

因为各个变量间的变量值的数量级别差异较大或者单位不一致,例如一个变量的单位是元,另一个变量的单位是百分比,数量级别差异较大,而且单位也不一致,无法直接进行比较或者计算“距离”和“相似系数”等指标。

(3)选择聚类方法和类别个数;

(4)聚类分析结果解读;

常用的聚类方法包括:

1.快速聚类:也称K均值聚类,它是按照一定的方法选取一批聚类中心点,让个案向最近的聚类中心点聚集形成初始分类,然后按照最近距离原则调整不合理的分类,直到分类合理为止。

2.系统聚类:也称层次聚类,首先将参与聚类的个案(或变量)各视为一类,然后根据两个类别之间的聚类或者相似性逐步合并,直到所有个案(或变量)合并为一个大类为止。实际上,系统聚类分析结果展现了每个个案的聚类过程和分类结果。系统聚类之后,要制作交叉表通过每一个类别的均值来了解每一类别的特征。

3.二阶聚类:也称两步聚类,它是随着人工智能的发展起来的一种智能聚类方法。整个聚类方法分为两个步骤,第一个步骤是预聚类,就是根据定义的最大类别数对个案进行初步归类;第二个步骤是正式聚类,就是对第一步得到的初步归类进行再聚类并确定最终聚类结果,并且在这一步中,会根据一定的统计标准确定聚类的类别数。

系统聚类与快速聚类区别

(1)系统聚类分析不仅支持输入单个分类数量,还支持输入分类数量的范围。这对于暂时无法确定类别数,或者想进行多类别数的结果比较时,非常方便。

(2)系统聚类分析支持生成聚类结果图,从而更加直观地查看聚类过程。系统聚类分析支持两种图形:

谱系图(树状图):它以树状的形式展现个案被分类的过程;

冰柱图:它以“X”的形式显示全部类别或指定类别数的分类过程。

(3)系统聚类分析提供多种聚类方法和适用于不同数据类型的测量方法。

其中,测量方法(度量标准):

(i)区间:适用于连续变量,虽然SPSS提供了8种测量方法,但是通常选用默认的【平方欧式距离】即可。

(ii)计数:适用于连续或分类变量,SPSS提供了2种测量方法,通常选用【卡式测量】即可。

(iii)二元:适用于0/1分类变量,SPSS提供多达27种测量方法,通常选用【平方欧式距离】即可。

聚类分析的数据标准化

通过方法里的转换值项来进行标准化处理。由于参与聚类分析的变量是连续变量,所以,【测量】应选择【区间】项,方法为默认的【平方欧式距离】,标准化可以选择【Z得分】,选择按【变量项】,用以每个变量单独进行标准化。

二阶聚类分析

二阶聚类分析能够对连续变量和分类变量同时进行处理,无需提前指定聚类的数目,二阶聚类会自动分析并输出最优聚类数。二阶聚类的自动聚类结果借由统计指标施瓦兹贝叶斯准则(BIC)帮助判断最佳分类数量。判断一个聚类方案的依据是BIC的数值越小,同时,“BIC变化量”的绝对值和“距离测量比率”数值越大,则说明聚类效果越好。

聚类方法的对比

聚类分析属于探索性数据分析方法,它没有一个所谓的标准流程和答案,不同的数据有不同的适用方法,即使相同的数据,应用不同的方法也可能会得到不同的结果。只要能有效解决实际业务问题即可。

聚类方法对比

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

计算机视觉中,目前有哪些经典的目标跟踪算法?

86760
来自专栏新智元

【CVPR 2018热文】MIT提出“透明设计”网络,揭开视觉黑盒

【新智元导读】MIT和普朗克航空系统公司的研究人员合作,提出了一类“透明设计网络”,在李飞飞等人提出的视觉理解数据库CLEVR上达到了99.1%的准确率,他们设...

35450
来自专栏新智元

超越GAN!OpenAI提出可逆生成模型,AI合成超逼真人像

【新智元导读】OpenAI最新提出的可逆生成模型Glow,可以使用相对少的数据,快速生成高清的逼真图像,具有GAN和VAE所不具备的精确操作潜在变量、需要内存少...

12700
来自专栏FSociety

决策树算法理解

这其实也就是决策树算法在训练过程中需要完成的,在多个特征中,我们需要找出最能区分结果的特征,区分结果差的直接丢掉。

9620
来自专栏一心无二用,本人只专注于基础图像算法的实现与优化。

使用局部标准差实现图像的局部对比度增强算法。

      图像的对比度增强算法在很多场合都有着重要的应用,特别是在医学图像上,这是因为在众多疾病的诊断中,医学图像的视觉检查时很有必要的。而医学图像由于本身及...

35490
来自专栏IT派

一个Python自动提取内容摘要的实践

利用计算机将大量的文本进行处理,产生简洁、精炼内容的过程就是文本摘要,人们可通过阅读摘要来把握文本主要内容,这不仅大大节省时间,更提高阅读效率。但人工摘要耗时又...

23900
来自专栏专知

【NLP专题】斯坦福CS224n课程笔记03:词向量表示(2)——深入探究词向量

24310
来自专栏新智元

计算机视觉中,目前有哪些经典的目标跟踪算法?

【新智元导读】这篇文章将非常详细地介绍计算机视觉领域中的目标跟踪,尤其是相关滤波类方法,分享一些作者认为比较好的算法。 相信很多来这里的人和我第一次到这里一样,...

924100
来自专栏利炳根的专栏

学习笔记CB007:分词、命名实体识别、词性标注、句法分析树

概率图模型条件随机场适用观测值条件下决定随机变量有有限个取值情况。给定观察序列X,某个特定标记序列Y概率,指数函数 exp(∑λt+∑μs)。符合最大熵原理。基...

636110
来自专栏奇点大数据

生成对抗网络(GAN)的直观介绍

原文来源:freeCodeCamp 作者:Thalles Silva 让我们假设这样一种情景:你的邻居正在举办一场非常酷的聚会,你非常想去参加。但有要参加聚会...

41460

扫码关注云+社区

领取腾讯云代金券