专栏首页黄成甲数据分析之聚类分析

数据分析之聚类分析

RFM分析只能对客户的行为进行分析,包含的信息量有点少。一般来说,对人群进行分类,要综合考虑其行为、态度、模式以及相关背景属性,通过使用特定的方法,发现隐藏在这些信息背后的特征,将其分成几个类别,每一类具有一定的共性,进而做出进一步的探索研究。这个分类的过程就是聚类分析。

文/黄成甲

聚类分析

聚类分析,就是按照个体的特征将它们分类,目的在于让同一个类别内的个体之间具有较高的相似度,而不同类别之间具有较大的差异性。这样,就能够根据不同类别的特征有的放矢地进行分析,并制定出适用于不同类别的解决方案。

聚类可以对变量进行聚类,但是更常见的还是对个体进行聚类,也就是样本聚类。例如对用户、渠道、商品、员工等方面的聚类,聚类分析主要应用在市场细分、用户细分等领域。

为了合理的聚类,需要采用适当的指标来衡量研究对象之间的联系紧密程度,常用的指标有“距离”和“相似系数”,相似系数一般指的是相关系数。假设将研究对象采用点表示,聚类分析时,将“距离”较小的点或“相似系数”较大的点归为同一类,将“距离”较大的点或“相似系数”较小的点归为不同的类。

聚类分析具有如下特点:

1.对于聚类结果是未知的,不同的聚类分析方法可能得到不同的分类结果,或者相同的聚类分析方法但是所分析的变量不同,也会得到不同的聚类结果;

2.对于聚类结果的合理性判断比较主观,只要类别内相似性和类别间差异性都能得到合理的解释和判断,就认为聚类结果是可行的。

聚类分析可以应用于以下场景:

聚类分析应用场景

聚类分析的步骤:

(1)确定需要参与聚类分析的变量;

(2)对数据进行标准化处理;

因为各个变量间的变量值的数量级别差异较大或者单位不一致,例如一个变量的单位是元,另一个变量的单位是百分比,数量级别差异较大,而且单位也不一致,无法直接进行比较或者计算“距离”和“相似系数”等指标。

(3)选择聚类方法和类别个数;

(4)聚类分析结果解读;

常用的聚类方法包括:

1.快速聚类:也称K均值聚类,它是按照一定的方法选取一批聚类中心点,让个案向最近的聚类中心点聚集形成初始分类,然后按照最近距离原则调整不合理的分类,直到分类合理为止。

2.系统聚类:也称层次聚类,首先将参与聚类的个案(或变量)各视为一类,然后根据两个类别之间的聚类或者相似性逐步合并,直到所有个案(或变量)合并为一个大类为止。实际上,系统聚类分析结果展现了每个个案的聚类过程和分类结果。系统聚类之后,要制作交叉表通过每一个类别的均值来了解每一类别的特征。

3.二阶聚类:也称两步聚类,它是随着人工智能的发展起来的一种智能聚类方法。整个聚类方法分为两个步骤,第一个步骤是预聚类,就是根据定义的最大类别数对个案进行初步归类;第二个步骤是正式聚类,就是对第一步得到的初步归类进行再聚类并确定最终聚类结果,并且在这一步中,会根据一定的统计标准确定聚类的类别数。

系统聚类与快速聚类区别

(1)系统聚类分析不仅支持输入单个分类数量,还支持输入分类数量的范围。这对于暂时无法确定类别数,或者想进行多类别数的结果比较时,非常方便。

(2)系统聚类分析支持生成聚类结果图,从而更加直观地查看聚类过程。系统聚类分析支持两种图形:

谱系图(树状图):它以树状的形式展现个案被分类的过程;

冰柱图:它以“X”的形式显示全部类别或指定类别数的分类过程。

(3)系统聚类分析提供多种聚类方法和适用于不同数据类型的测量方法。

其中,测量方法(度量标准):

(i)区间:适用于连续变量,虽然SPSS提供了8种测量方法,但是通常选用默认的【平方欧式距离】即可。

(ii)计数:适用于连续或分类变量,SPSS提供了2种测量方法,通常选用【卡式测量】即可。

(iii)二元:适用于0/1分类变量,SPSS提供多达27种测量方法,通常选用【平方欧式距离】即可。

聚类分析的数据标准化

通过方法里的转换值项来进行标准化处理。由于参与聚类分析的变量是连续变量,所以,【测量】应选择【区间】项,方法为默认的【平方欧式距离】,标准化可以选择【Z得分】,选择按【变量项】,用以每个变量单独进行标准化。

二阶聚类分析

二阶聚类分析能够对连续变量和分类变量同时进行处理,无需提前指定聚类的数目,二阶聚类会自动分析并输出最优聚类数。二阶聚类的自动聚类结果借由统计指标施瓦兹贝叶斯准则(BIC)帮助判断最佳分类数量。判断一个聚类方案的依据是BIC的数值越小,同时,“BIC变化量”的绝对值和“距离测量比率”数值越大,则说明聚类效果越好。

聚类方法的对比

聚类分析属于探索性数据分析方法,它没有一个所谓的标准流程和答案,不同的数据有不同的适用方法,即使相同的数据,应用不同的方法也可能会得到不同的结果。只要能有效解决实际业务问题即可。

聚类方法对比

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 数据挖掘算法及相关应用

    我们生活在信息爆炸的时代,每时每刻都在产生海量的数椐。我们在微博、微信、社交网站、门户网站、移动终端等众多的设备商产生的海量数据,面临着无法处理数据的困境。例如...

    黄成甲
  • 工业互联网的逻辑到底是什么

    工业互联网,是相对“消费互联网”提出的概念。在消费互联网时期,互联网技术已经初步展现了其技术魅力,既创造了巨大的经济价值,又再次点燃了人类对于社会变革的梦想。正...

    黄成甲
  • 大数据:人工智能的基石

    目前的深度学习主要是建立在大数据的基础上,即对大数据进行训练,并从中归纳出可以被计算机运用在类似数据上的知识或规律。那么,到底什么是大数据呢?

    黄成甲
  • 机器理解大数据的秘密:聚类算法深度详解

    选自Medium 作者:Peter Gleeson 机器之心编译 参与:吴攀、蒋思源、李泽南、李亚洲 在理解大数据方面,聚类是一种很常用的基本方法。近日,数据科...

    机器之心
  • 机器理解大数据秘密:聚类算法深度剖析

    在理解大数据方面,聚类是一种很常用的基本方法。近日,数据科学家兼程序员 Peter Gleeson 在 freeCodeCamp 发布了一篇深度讲解文章,对一...

    Angel_Kitty
  • 机器理解大数据的秘密:聚类算法深度详解

    来源:机器之心 作者:Peter Gleeson 校对:吼海雕 编辑:冯夕琴 本文共6800字,建议阅读17分钟 本文对一些聚类算法进行了基础介绍,并通过简单而...

    数据派THU
  • 无监督学习 聚类分析③

    可以看到有16个指标支持最佳聚类数目为3,5个指标支持聚类数为2,所以该方法推荐的最佳聚类数目为3.

    用户1359560
  • 数据挖掘:聚类算法概述

    本篇重点介绍聚类算法的原理,应用流程、使用技巧、评估方法、应用案例等。具体的算法细节可以多查阅相关的资料。聚类的主要用途就是客户分群。 聚类 VS 分类 分类是...

    CDA数据分析师
  • k-均值聚类

    k-均值聚类是一种表示学习算法。k-均值聚类算法将训练集分成k个靠近彼此不同样本聚类。因此我们可以认为该算法提供了k维的one-hot编码向量h以表示输入x。当...

    狼啸风云
  • 【学习】SPSS聚类分析全过程

    案例数据源: 有20种12盎司啤酒成分和价格的数据,变量包括啤酒名称、热量、钠含量、酒精含量、价格。数据来自《SPSS for Windows 统计分析》dat...

    小莹莹

扫码关注云+社区

领取腾讯云代金券