【技术】SPSS因子分析

因子分析在各行各业的应用非常广泛,尤其是科研论文中因子分析更是频频出现。小兵也凑个热闹,参考《SPSS统计分析》书中的案例,运用SPSS进行因子分析,作为我博客 SPSS案例分析系列 的第三篇文章。

【一、概念】 探讨具有相关关系的变量之间,是否存在不能直接观察到的,但对可观测变量的变化其支配作用的潜在因素的分析方法就是因子分析,也叫因素分析。通俗点:因子分析是寻找潜在的、起支配作用因子的方法。

【二、简单实例】 现在有 12 个地区的 5 个经济指标调查数据(总人口、学校校龄、总雇员、专业服务、中等房价),为对这 12 个地区进行综合评价,请确定出这 12 个地区的综合评价指标。

【三、解决方案】 1、spss因子分析

同一指标在不同地区是不同的,用单一某一个指标难以对12个地区进行准确的评价,单一指标智能反映地区的某一方面。所以,有必要确定综合评价指标,便于对比。因子分析是一个不错的选择,5 个指标即为我们分析的对象,我们希望从这5个可观测指标中寻找出潜在的因素,用这些具有综合信息的因素对各地区进行评价。下图是spss因子分析的操作界面,主要包括5方面的选项,变量区只能选择数值型变量,分类型变量不能进入该模型。另外,spss软件为了消除不同变量间量纲和数量级对结果的影响,在该过程中默认自动进行标准化处理,因此不需要对这些变量提前进行标准化处理。

2、描述统计选项卡

我们希望看到各变量的描述统计信息,要对比因子提取前后的方差变化,所以选定“单变量描述性”和“原始分析结果”;现在是基于相关矩阵提取因子,所以,选定相关矩阵的“系数和显著性水平“,比较重要的还有 KMO 和球形检验,通过KMO值,我们可以初步判断该数据集是否适合采用因子分析方法。比较糟糕的是,kmo结果有时并不会出现,这主要与变量个数和样本量大小有关。

3、抽取选项卡

在该选项卡中设置如何提取因子,提取因子的方法有很多,最常用的就是主成分法。因为参与分析的变量测度单位不同,所以选择“相关矩阵”,如果参与分析的变量测度单位相同,则考虑选用协方差矩阵。经常用到碎石图对于判断因子的个数很有帮助,一般都会选择该项。关于特征值,不想解释太多,这和显著性水平一样,都是统计学的一个基本概念。一般spss默认只提取特征值大于1的因子,但,我还可以通过自定义设置需要提取的因子个数。另外,收敛次数比较重要,可以从首次结果反馈的信息进行调整。

4、因子旋转选项卡

因子分析要求对因子给予命名和解释,对因子旋转与否取决于因子的解释。如果不经旋转因子已经很好解释,那么没有必要旋转,否则,应该旋转。这里直接旋转,便于解释。至于旋转就是坐标变换,使得因子系数向1 和 0 靠近,对公因子的命名和解释更加容易。旋转方法一般采用”最大方差法“即可,输出旋转后的因子矩阵和载荷图,对于结果的解释非常有帮助。

5、保存因子得分

要计算因子得分,就必须先写出因子的表达式。而因子是不能直接观察到的,是潜在的。但是可以通过可观测到的变量获得。前面说到,因子分析模型是原始变量为因子的线性组合,现在我们可以根据回归的方法将模型倒过来,用原始变量也就是参与分析的变量来表示因子。从而得到因子得分。因子得分作为变量保存,对于以后深入分析很有用处。

【四、结果解释】 1、验证数据是否适合做因子分析

主要参考kmo结果,一般认为大于0.5,即可接受。同时还可以参考相关系数,一般认为分析变量的相关系数多数大于 0.3,则适合做因子分析;从 KMO=0.575 检验来看,不是特别适合因子分析,基本可以通过。这里主要是为了简单介绍因子分析,所以,不看重这一结果。

2、因子方差表

提取因子后因子方差的值均很高,表明提取的因子能很好的描述这 5 个指标。方差分解表也表明,默认提取的前两个因子能够解释 5 个指标的 93.4%。碎石图表明,从第三个因子开始,特征值差异很小。综合以上,提取前两个因子。

3、因子矩阵

由旋转因子矩阵可以看出,经旋转后,因子便于命名和解释。因子 1主要解释的是中等房价、专业服务项目、中等校平均校龄,可以命名为社会福利因子;而因子 2 主要解释的是其余两个指标,总人口和总雇员。可以命名为人口因子。因子分析要求,最后得到的因子之间相互独立,没有相关性,而因子转换矩阵显示,两个因子相关性较低。可见,对因子进行旋转是完全有必要的。

4、因子系数

因子得分就是根据这个系数和标准化后的分析变量得到的。其次,在数据视图中可以看到因子得分变量。

5、结论

经过因子分析,我们的目的实现了,找到了两个综合评价指标,即人口因子和福利因子。从原来的 5 个指标挖掘出 2 个潜在的综合因子。可以对12 个地区给出客观评价。

我们可以根据因子1或者因子2得分,对这12个地区进行从大到小排序,得分高者被认为在这个维度上有较好表现。一般上因子分析到此就已经结束了,如果想再进一步展开分析,一般可以采取两种方式,第一是进行因子综合得分的计算,用一个总得分对样本进行大小排序,得分高者为佳;第二,将得到的若干因子作为新的变量,进行聚类分析,这两种方式,均单独有文字介绍。

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2014-02-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能LeadAI

机器学习实践中应避免的七种常见错误

摘要:在机器学习领域,每个给定的建模问题都存在几十种解法,本文作者认为,模型算法的假设并不一定适用于手头的数据;在追求模型最佳性能时,重要的是选择适合数据集(尤...

3065
来自专栏SIGAI学习与实践平台

OCR技术简介

光学字符识别(Optical Character Recognition, OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。亦即将图...

3K1
来自专栏SimpleAI

【DL碎片5】一只蚊子告诉你,什么是正则化(Regularization)

从【DL笔记1】到【DL笔记N】以及【DL碎片】系列,是我学习深度学习一路上的点点滴滴的记录,是从Coursera网课、各大博客、论文的学习以及自己的实践中总结...

1572
来自专栏人工智能头条

Yoshua Bengio:在能量模型中使用提前推断近似反向传播

1672
来自专栏量子位

想把自拍背景改成马尔代夫?手把手教你用深度学习分分钟做到

王小新 编译自 TowardsDataScience 量子位 出品 | 公众号 QbitAI 以前,从照片里抠出人像去掉背景,是要到处求PS大神帮忙的。大神时间...

4269
来自专栏数说工作室

【分类战车SVM】第二话:线性分类

分类战车SVM (第二话:线性分类) 1. 回顾 上一集我们大致介绍了机器学习世界的一种新武器——支持向量机,代号为SVM(微信公众号“数说工作室”中回复“SV...

4075
来自专栏专知

【明星自动大变脸,嬉笑怒骂加变性】最新StarGAN对抗生成网络实现多领域图像变换(附代码)

【导读】图像之间的风格迁移和翻译是近年来最受关注的人工智能研究方向之一,这个任务在具有趣味性的同时也是很有挑战的。相关的研究成果也层出不穷,有的甚至引起了全世界...

4689
来自专栏媒矿工厂

图像模糊度评价性能提升方法简介

背景介绍 随着多媒体技术的发展,图像以及视频服务逐渐成为人们获取信息的主要载体。传统上,视频或图像质量的好坏需要人眼去看,并且为了得到一个合适的评价分数,一般需...

7356
来自专栏AI研习社

计算机视觉中,有哪些比较好的目标跟踪算法?(下)

相信很多来这里的人和我第一次到这里一样,都是想找一种比较好的目标跟踪算法,或者想对目标跟踪这个领域有比较深入的了解,虽然这个问题是经典目标跟踪算法,但事实上,可...

8146
来自专栏量子位

亚马逊专家揭秘:如何建立自动检测乳腺癌的深度学习模型

安妮 编译自 Insight Data Science 量子位出品 | 公众号 QbitAI 本文作者Sheng Weng,现亚马逊Alexa项目组数据专家,莱...

3468

扫码关注云+社区

领取腾讯云代金券