典型相关分析(Canonical Correlation Analysis, CCA) 探讨一组变量 与 另一组变量间的 相互关系 即是 典型相关分析,它是 简单相关 和 多元相关分析 的 延伸 --- 《多元统计分析及R语言建模》(第五版)王斌会
目的:化简 复杂相关关系 利用 PCA思想 讨论 两组随机变量的相关性 将 两组变量间相关性研究 化为 少数几对变量间相关性研究, 且 此少数几对变量间 不相关
典型相关分析 :研究两组变量间 相关关系 的一种多变量统计分析方法, 它 可以真正反映 两组变量间 相互依赖 的线性关系
两组变量: 第一组:
第二组:
类似PCA的做法:
每组 变量 中 选择 若干代表性 综合指标(变量的线性组合)
,通过 研究 两组 综合指标 间关系
来反映 两组变量间 相关关系
即 线性组合 之间的相关关系
步骤:
大多数情况下, 在进行 典型相关分析时, 可 先将
数据标准化
,样本协方差阵 = 样本相关系数阵
, 此时 就不会 出现特征根 不等于 相关系数的平方
的情况
典型相关系数的 显著性检验
求出 "去掉前 k 个典型相关系数的影响"
后 所剩(p - k)
个典型相关系数 是否 可达到显著
所 计算的
值 若大于
便 拒绝 典型相关系数为 0 的假设
农村居民收入和支出典型相关分析
library(openxlsx)
Case11 = read.xlsx("../Res/mvcase5.xlsx", "Case11")
head(Case11)
round(cor(Case11), 3)
plot(Case11, gap = 0)
# 最好先标准化
Z = scale(Case11)
head(Z)
ca = cancor(Z[,1:4], Z[,5:9]);ca
看列(1列1列看): [,1] 第一对典型相关变量 u1: X1 载荷最大 v1: Y1 载荷最大 X1 载荷,Y1载荷 相同正负 -> 相同方向的影响
结论:Y1(生活消费) 主要由 X1(工资性收入) 维持
$cor 相关系数 依次为 第1对典型相关变量(u1, v1) 的相关系数 第2对典型相关变量(u2, v2) 的相关系数 ...
同正负->同方向 的影响
source("../Res/msaR.r")
msa.cancor(Z[,1:4], Z[,5:9], plot = T)
看 (系数),xcoef(x系数),ycoef (y系数):载荷 第一对典型变量 u1,v1: 其中 X1(工资性收入)、X4(转移性收入) 有较大载荷(看绝对值大小),且X1载荷最大, 说明 u1 主要受 工资性收入及转移性收入 影响 其中 Y1(生活消费)的载荷最大,说明 v1 主要受Y1(生活消费支出)的影响, 从而可说明 Y1(农村居民生活消费 支出) 中,较大的部分是由 X1(工资性收入) 及 X4(转移性收入) 来维持的
Q: 为什么需要 典型相关分析?或者说什么时候要用? A:TODO:
感谢帮助!