聚类分析稳定性判别的经验总结

缘起

统计分析分为初级“说一说”,中级“比一比”,高级"找关系",在关系系研究中,聚类分析是一种常见的分析方法,包括常见的系统聚类、快速聚类、两步聚类,每种都有自己适用的范围与特点,今天松哥不说,今天说一说,通过聚类分析,我们如何判定聚类结果的稳定性呢?

一般而言,聚类分析结果解读重在专业的可解读性和结果的稳定性。再好的聚类结果,专业无法解释也不好应用,再好的结果,不稳定也是白搭!

一、聚类结果一般要求各聚类组成员数目相差不大,除非目的是异常值的发现

如下图结果,请问这个聚类结果初步判断如何?根据第一条的规则,如果对结果进行分类,此结果并不理想,因为16号样品单独一只。但是如果研究目的就是为了发现这么多样品中的可疑值,那么着就是一个不错的聚类分析结果。关于这点,给大家推荐非常值得一看的(

西藏冬虫夏草失窃案,松哥受邀告破实录

)。

二、如果规律是存在的,那么不同方法应该得到相似或一致的结果,意即可同不同聚类方法对数据进行聚类

补充一句,每种聚类方法都有自己的使用范围,不能为了应用多种方法,跨界运用哦!

系统聚类:通常适合小样本聚类,可以进行样品聚类,也可以变量聚类,可以做系谱图和冰柱图。

快速聚类:适合大样本数据,但只能进行变量聚类,如若非要进行样品聚类,可以进行行列转置,然后进行聚类。但不能做系谱图和柱状图。

两步聚类:是一种智能聚类的方法,该法可以同时处理分类变量和数值变量,而前面的方法都只能处理数值变量资料。

三、拆分验证:

当你玩得是大数据,哈哈,你还可可以将数据进行随机拆分,然后分别对两份数据进行聚类分析,因为来自是同一份数据,随意结果应该一致,如果相差太大,那结果就自己看看吧,别到处炫耀啦,呵呵!

四、采用两步聚类,看看结果吧

是一种智能聚类的方法,可以根据算法,自己决定样本聚成几类。如下图:软件根据输入的6个变量,最终自行决策聚成2类,并对模型进行评价,认为模型“尚可”。

两步聚类还有非常重要的一个功能就是对聚类的变量的重要性进行评价,如下图,认为身高重要性>肺呼量>体重>胸围,体育成绩和年龄几乎没多大作用。

五、主成分分析提供参考

也有人对数据线进行主成分分析,如果主成分分析提取出3个主成分,并且解释的方差比例较高。那么有人认为进行聚类分析时,应该选择聚成4类的结果。

六、理想 的聚类

理想的聚类,首先应该稳定,并且专业上很好解释。同时在聚类图上,有一个特点,就是组间的差异很大,而组内的差异较小。如下2图。右侧的图组间差异远大于左侧,因此右侧聚类结果,单从统计角度要优于作图。

特此声明:下图引自张文彤老师的书籍。

精鼎数据分析联盟,期待您的加盟!在数据处理方面,欢迎您来投稿!

统计思维与统计理论系列[1]

-------------------------------------------

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180830G1V6VE00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券