因子分析是一种描述原始变量或原始样本之间相关关系的一种手段,所谓因子指的是多个错综复杂的自变量经过有效手段抽取到少数几个综合计算变量的代称,它是一种多变量统计分析方法,通过因子得分确定较高得分的公共因子载荷矩阵进行对原始变量的代替(相当于降维),出发点是原始变量的相关系数矩阵
思想
- 根据相关系数矩阵的值将原始变量按照值的大小进行分组,同一个组的相关性较高,不同组的则较低
- 引入两个概念,公共因子和特殊因子,公共因子指的是每组原始变量间的一种依赖代表(可以理解为共性,相似的成分),且一般公共因子是由一些不可观测的综合变量表示(一般我们能观测到每个变量的变化差异却很难捕捉变量间共性,找出不同很容易,而不同中找相同却不太容易所以不可观测),而特殊因子则与公共因子无关,抓住这些特殊因子就可以起到降维和分析的作用,原始变量可以分解成少数几个不可观测的公共因子的线性函数和特殊因子之和
- 将原始变量代入因子计算每种因子得分,根据得分将变量进行分类划分
- 分为两种,研究变量间的相关关系(R型)和研究样本间的相关关系(Q型),处理起来没太大差别
模型过程
约定
有n个样本,每个样本有p个观测指标,指标间有较强的相关性(只有相关性较强才能提取出公共因子),并进行数据标准化,使得标准化后的变量均值为0,方差为1,消除量纲的影响
X为可观测的(因为是原始变量),根据公式
计算变量间的协方差矩阵为R(在这里选用协方差矩阵和相关系数矩阵R一样,因为标准化后方差都是1)
步骤
因为计算因子载荷有多种办法,所以矩阵不唯一,为了更好地采用公共因子进行描述,需要采用因子旋转,因子旋转不改变公共因子对
的贡献率,做法是让F乘以一个正交矩阵(旋转操作相当于正交矩阵乘法),做旋转后就改变了公共因子对原始变量的贡献率,从而得出比较好刻画的公共因子
因为载荷矩阵一般较为复杂且有临近奇异的趋势(毕竟是同一批样本),公共因子个数少于原始变量的个数,且是不可观测的隐变量,因此不能直接求得公共因子与原始变量精确表示的线性组合,一般是用回归的思想求出线性组合系数的估计值,即公共因子是因变量,原始变量为自变量的回归方程,即
由上述公式综合得到
A是载荷矩阵,R是原始相关系数矩阵,这样就估计出公共因子的得分,将一组数据X(含p个指标)代入求得因子得分,根据因子得分的高低确定因子载荷矩阵(即公共因子序列),相当于在原来p维的基础上替换成立少数的公共因子维度(进行了降维),从而可以用来进行样本点比较,样本点聚类等问题
计算因子载荷的方法
计算因子载荷有多种办法,常见的有主成分法,主轴分析法,极大似然法等,本文解释前两种,每种方法得到的载荷矩阵相差不大
1、主成分法
本来想先写主成分分析的,因为比较常见且可能篇幅较短就不班门弄斧了
- 对相关系数矩阵进行特征值分解,根据特征值大小排序(区别于主成分分析这里不进行方差阈值的筛选,即保留全部的主成分),通过每种特征值对应的特征向量得到主成分的组合,记为Y
主成分法有个问题是最后产生的特殊因子并不相互独立,如果共同度较大的场景时,则可以采用
2、主轴分析法
与主成分分析的区别
- 因子分析是找出公共因子和特殊因子,而主成分分析只是从空间角度找出几组彼此不相关的新变量
- 因子分析是把变量表示成公共因子之间的线性组合,而主成分是把主成分表示成各变量的线性组合
- 主成分分析中一般主成分都是固定的(特征值都唯一的情况下),而因子分析是可以通过旋转获得不同的因子的
- 如果将
看成是与
等价的话,则因子分析中的因子载荷和主成分分析因子符合矩阵是一致的(忽略F为不可测变量的差距)