【学习】SPSS聚类分析:用于筛选聚类变量的一套方法

聚类分析是常见的数据分析方法之一,主要用于市场细分、用户细分等领域。利用SPSS进行聚类分析时,用于参与聚类的变量决定了聚类的结果,无关变量有时会引起严重的错分,因此,筛选有效的聚类变量至关重要。

案例数据源:

在SPSS自带数据文件plastic.sav中记录了20中塑料的三个特征,分别是tear_res(抗拉力)、gloss(光滑度)、opacity(透明度),相关经验表面这20中塑料可以分为3个种类,如果用这三个变量进行聚类,请判断和筛选有效聚类变量。

一套筛选聚类变量的方法

一、盲选

将根据经验得到的、现有的备选聚类变量全部纳入模型,暂时不考虑某些变量是否不合适。本案例采用SPSS系统聚类方法。对话框如下:

统计量选项卡:聚类成员选择单一方案,聚类数输入数字3; 绘制选项卡:勾选树状图; 方法选项卡:默认选项,不进行标准化; 保存选项卡:聚类成员选择单一方案,聚类数输入数字3;

二、初步聚类

这是盲选得到的初步聚类结果,并且在数据视图我们可以看到已经自动生成了一个聚类结果变量,这个变量非常有用。

三、方差分析

是不是每一个纳入模型的聚类变量都对聚类过程有贡献?利用已经生成的初步聚类结果,我们可以用一个单因素方差分析来判断分类结果在三个变量上的差异是否显著,进而判断哪些变量对聚类是没有贡献的。

分析——比较均值——单因素方差分析: 选项选项卡:勾选均值图

由方差分析我们很明确的得知,纳入模型的三个聚类变量,其中只有“透明度”指标在各个分类上有显著的差异,也就是说分类有效果,让每个分类的差异很大,而两外两个变量则在三个分类上没有显著差异,没有很好的类别区分度,所以,我们可以认为,这两个变量对聚类无作用或者无贡献,可考虑踢出模型。

我们还想从可视化的角度来查看和判断,单因素方差分析为我们提供了均值图,可惜,这三个图却最容易误导我们的判断,因为spss在自动生产均值图时为每一个变量单独制图,而且分配不同的纵轴坐标,导致每个图看起来都有非常大的差异,从视觉上迷惑我们做出错误的判断。

这里需要改进!

四、均值描述

为改进以上SPSS默认选项的不足之处,我们需要自己生成三个变量在不同类别上的均值,means过程可以帮助到我们。

从数字上来看,抗拉力(6.8、6.7、7.1)、光滑度(9.3、9.4、9.2)两个指标在三个类别上并没有多大的差异,而对聚类有贡献的透明度指标在不同类别上区分度非常明显。

五、多线均值图

克服纵轴刻度的方法是将这三个指标放在同一个坐标轴上进行对比,也就是制作一个多线均值图。

此时,结果已经一目了然了。

综上,我们可以将抗拉力、光滑度两个指标从模型中剔除,只留下透明度一个指标再进行聚类。

我们发现,前后两次聚类的结果一模一样,用一个指标可以代替以前三个指标的进行聚类。

我们这样做的意义何在?如果能将这些整理成为规则,形成经验,那我们就可以不用测量抗拉力和光滑度这两个指标了,你不觉得多测量两个指标成本会增加吗?

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2015-02-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能

支持向量机入门简介

我们会通过分享有用的图书馆和资源而不是用复杂的数学知识来带你入门 SVM 。

3889
来自专栏WOLFRAM

Wolfram 语言与计算型显微镜

1594
来自专栏用户2442861的专栏

循环神经网络——实现LSTM

网络回忆:在《循环神经网络——介绍》中提到循环神经网络用相同的方式处理每个时刻的数据。

2212
来自专栏CVer

[计算机视觉论文速递] ECCV 2018 专场3

Amusi 将日常整理的论文都会同步发布到 daily-paper-computer-vision 上。名字有点露骨,还请见谅。喜欢的童鞋,欢迎star、for...

810
来自专栏机器之心

学界 | Bengio等提出稀疏注意力回溯:长期依赖关系建模的更一般化机制

人类对与当前心理状态相关的很久之前的事件有很强的记忆能力(Ciaramelli et al., 2008)。大多数关于记忆的实验和理论分析都集中在理解形成记忆和...

941

神经图

我们可以通过在Javascript中逐步形成神经网络来发展抽象艺术。见这里的画廊(gallery)。点这里尝试Web应用程序,并从头开始不断发展自己的艺术作品!

2859
来自专栏AI研习社

用深度学习每次得到的结果都不一样,怎么办?

AI研习社按:本文作者 Jason Brownlee 为澳大利亚知名机器学习专家、教育者,对时间序列预测尤有心得。原文发布于其博客。AI研习社崔静闯、朱婷编译。...

1.4K3
来自专栏机器之心

16岁高中生夺冠Kaggle地标检索挑战赛!而且竟然是个Kaggle老兵

1963
来自专栏机器之心

资源 | 用Python和NumPy学习《深度学习》中的线性代数基础

2313
来自专栏AI科技评论

学界 | UC伯克利大学AI实验室用一张单色图像生成高质量3D几何结构

AI科技评论按:用图像来重建3D数字几何结构是计算机视觉领域一个非常核心的问题。这种技术在许多领域都有广泛的应用,例如电影制作、视频游戏的内容生成、虚拟现实和增...

4046

扫码关注云+社区

领取腾讯云代金券