聚类分析和判别分析都是研究事物分类的基本方法,通常我们所研究的指标或数据之间存在不同程度的相似性,聚类分析是采用定量数学方法,根据样品或指标的数值特征,对样本进行分类,从而辨别个样品之间的亲属关系,是一种使用简单但却粗糙的分析方法;判别分析则是在已有分类结果的基础上提取信息,构成判别函数,然后根据判别函数对为之分类样本进行分类的一种方法。
实例42 二阶段聚类分析
功能与意义
主要用于一般的数据挖掘和多元统计的交叉领域-模式分类,其算法适合于任何尺度的变量。
数据来源
分析过程
分析-分类-两步聚类
输出
结果分析
(1)自动聚类分析表
BIC=83.505为最小,此时聚类数为2,即所有给氛围两类比较合适。
(2)各数值变量的质心数
第一类即使用核能的企业有10家,资产收益率较高且成本较低;
第二类即不使用核能的企业有12家,家产收益率较低且成本较高。
实例43 K中心聚类分析
功能与意义
事先指定类别数K,然后不断调整分类中心,直至收敛。适合处理大样本,使用时要考虑量纲差异,不同变量的数量级相差太大,应先对数据进行标准化。
数据来源
分析过程
数据标准化处理
分析-分类-K均值聚类
选项
结果分析
(1)初始聚类中心
(2)聚类成员分析
可以看出每个地区属于哪一类还可以知道每个地区最终聚类中心的距离。
(3)最终聚类中心表
(4)每个聚类中的样本数
聚类1包含样本数最多,3最少。