数据分析之因子分析

系统聚类分析可以对变量进行分类,但是难以判断变量分类结果的合理性。另外,如果要衡量每个变量对类别的贡献,也难以通过聚类分析来实现。这个时候就要采用因子分析来实现了。因子分析就是找出隐藏在变量背后具有共性的因子。

文/黄成甲

因子分析

因子分析是通过研究变量间的相关系数矩阵,把这些变量间错综复杂的关系归结成少数几个综合因子,并据此对变量进行分类的一种统计分析方法。由于归结出的因子个数少于原始变量的个数,但是它们又包含原始变量的信息,所以,这一分析过程也称为降维。

因子分析的主要目的有以下三个:

(1)探索结构:在变量之间存在高度相关性的时候我们希望用较少的因子来概括其信息;

(2)简化数据:把原始变量转化为因子得分后,使用因子得分进行其他分析,比如聚类分析、回归分析等;

(3)综合评价:通过每个因子得分计算出综合得分,对分析对象进行综合评价。

因子分析就是将原始变量转变为新的因子,这些因子之间的相关性较低,而因子内部的变量相关程度较高。

为了更好的了解因子分析,需要了解以下:

几个概念

(1)因子载荷

因子载荷就是每个原始变量和每个因子之间的相关系数,它反映了变量对因子的重要性。通过因子载荷值的高低,我们能知道变量在对应因子中的重要性大小,这样能够帮助我们发现因子的实际含义,有利于因子的命名。当有多个因子的时候,因子载荷将构成一个矩阵,称为因子载荷矩阵。

(2)变量共同度

变量共同度就是每个变量所包含的信息能够被因子所解释的程度,其取值范围介于0和1之间,取值越大,说明该变量能被因子解释的程度越高。

(3)因子旋转

因子分析的结果需要每个因子都要有实际意义,有时,原始变量和因子之间的相关系数可能无法明显地表达出因子的含义,为了使这些相关系数更加显著,可以对因子载荷矩阵进行旋转,使原始变量和因子之间的关系更为突出,从而对因子的解释更加容易。

旋转方法一般采用最大方差法,该方法能够使每个变量尽可能在一个因子上有较高载荷,在其余的因子上载荷较小,从而方便对因子进行解释。

(4)因子得分

因子得分可以用来评价每个个案在每个因子上的分值,该分值包含了原始变量的信息,可以用于代替原始变量进行其他统计分析,比如回归分析,可以考虑将因子得分作为自变量,与对应的因变量进行回归。

原始变量的数值是可以直接观测到的,而因子得分只能通过原始变量和因子之间的关系计算得到,并且因子得分是经过标准化之后的数值,各个因子得分之间不受量纲的影响。

因子分析步骤

(1)判断数据是否适合因子分析;

         因子分析的变量要求是连续变量,分类变量不适合直接进行因子分析;建议个案个数是变量个数的5倍以上,这只是一个参考依据,并不是绝对的标准;KMO检验统计量在0.5以下,不适合因子分析,在0.7以上时,数据较适合因子分析,在0.8以上时,说明数据极其适合因子分析。

(2)构造因子变量;

(3)利用因子旋转方法使得因子更具有实际意义;

(4)计算每个个案因子得分;

确定提取因子个数的标准

(1)初始特征值大于1的因子个数;

(2)累积方差贡献率达到一定水平(60%)的因子个数;

(3)碎石图中处于较陡峭曲线上所对应的因子个数;

(4)依据对研究事物的理解而指定因子个数;

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏LhWorld哥陪你聊算法

【机器学习】--模型评估指标之混淆矩阵,ROC曲线和AUC面积

实际上非常简单,精确率是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另...

6722
来自专栏机器学习之旅

理论:聚类算法思路总结

常见的为欧式距离(L1 norm)&&p=2,拓展的可以有闵可夫斯基距离(L2 norm)&&p=1:

792
来自专栏智能算法

在机器学习中用到了各式各样的距离

作者:shiwei408 来源:http://blog.csdn.net/shiwei408/article/details/7602324 本文目录: 1.欧...

3336
来自专栏PPV课数据科学社区

机器学习评价指标大汇总

在使用机器学习算法的过程中,针对不同场景需要不同的评价指标,在这里对常用的指标进行一个简单的汇总。 一、分类 1. 精确率与召回率 精确率与召回率多用于二分类问...

42410
来自专栏fangyangcoder

SVM笔记

SVM(Support Vector Machine)是一种寻求最大分类间隔的机器学习方法,广泛应用于各个领域,许多人把SVM当做首选方法,它也被称之为最优分类...

2443
来自专栏机器学习算法与Python学习

机器学习(8)之范数正则与Lasso详解

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 线性回归及L2正则 大家对于线性回归...

4505
来自专栏量子位

带你理解CycleGAN,并用TensorFlow轻松实现

王小新 编译自 GitHub 量子位 出品 | 公众号 QbitAI 把一张图像的特征转移到另一张图像,是个非常一颗赛艇的想法。把照片瞬间变成梵高、毕加索画作风...

6346
来自专栏机器学习算法工程师

【DLND 机器学习算法全栈工程师】干货!小白也能看懂的神经网络入门

导语: 干货来了,Udacity Machine Learning 课程导师 Walker 亲自出马,教你简单形象有趣地掌握神经网络! 神经网络是什么?神经网络...

3725
来自专栏李智的专栏

斯坦福CS231n - CNN for Visual Recognition(6)-lecture5预处理、正则化、损失函数

关于数据预处理我们有3种常用的方式,假设数据矩阵XX,假设其尺寸是[N,D][N ,D](NN是数据样本的数量,DD是数据的维度)。

2891
来自专栏null的专栏

简单易学的机器学习算法——Logistic回归

一、Logistic回归的概述     Logistic回归是一种简单的分类算法,提到“回归”,很多人可能觉得与分类没什么关系,Logistic回归通过对数据分...

3555

扫码关注云+社区

领取腾讯云代金券