前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据科学基础(十) 降维

数据科学基础(十) 降维

作者头像
Rikka
发布2022-01-19 17:57:52
4550
发布2022-01-19 17:57:52
举报
文章被收录于专栏:rikkarikka

📚 文档目录 随机事件及其概率 随机变量及其分布 期望和方差 大数定律与中心极限定理 数理统计的基本概念 参数估计 假设检验 多维 回归分析和方差分析 降维

10.1 主成分分析(PCA)

不懂线性代数, 下面这些参考了一些 PCA 的说明, 但我总觉得某些解释的不是很严谨.

目标

PCA 常用于高维数据的降维,可用于提取数据的主要特征分量.

对于原始数据矩阵

A=\begin{bmatrix} x_{11} &x_{12} & \cdots & x_{1n}\\ x_{21} &x_{22} & \cdots & x_{2n}\\ \vdots & \vdots & \cdots &\vdots \\ x_{r1} &x_{r2} & \cdots & x_{rn}\\ \end{bmatrix}

其中, 列向量(x_{1i},x_{2i},\cdots,x_{ri})^Tn 个样本中的一个. r 行表示 r 个维度.

对该矩阵进行中心化,得到中心化矩阵 X

X 中心化后, 样本点的中心点即原点, 寻找点分散程度最大的方向, 即让这些点投影后的分散程度最大.

向量内积

\alpha = (a_1, a_2,\cdots,a_n)^T,\beta = (b_1,b_2,\cdots,b_n)^T , 则内积可表示为:

\alpha \cdot \beta= \alpha^T \beta =a_1b_1+a_2b_2+ \cdots +a_nb_n

内积的几何意义:

A\cdot B = |A|\cdot|B|\cos\theta

B 为单位向量(\sqrt{b_1^2+b_2^2+\cdots+b_n^2}=1)时, 两个向量的内积就是 A 在这个单位向量方向投影的长度.

散度

分散程度可以用方差或者协方差衡量, 回顾一下方差和协方差:

\begin{aligned}\\ &&s^{2}(X)&=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}{n-1}\\ &&{Cov}(X, Y)&=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)\left(Y_{i}-\bar{Y}\right)}{n-1}\\ \end{aligned}

构建协方差矩阵 C:

C=\begin{bmatrix} cov(X_1, X_1) & cov(X_1, X_2) &\cdots &cov(X_1, X_n) \\ cov(X_2, X_1) &cov(X_2, X_2) & \cdots&cov(X_2, X_n) \\ \vdots & \vdots & \cdots &\vdots \\ cov(X_n, X_1) & cov(X_n, X_2) &\cdots &cov(X_n, X_n) \end{bmatrix}

由上述公式可知协方差矩阵 C 的每一项为:

C_{ij} =cov(X_i,X_j) = \frac{\sum_{k=1}^{n}\left(X_{ik}-\bar{X_i}\right)\left(X_{jk}-\bar{X_j}\right)}{n-1}= \frac {X_{i1}X_{j1}+X_{i2}X_{j2}+\cdots+X_{in}X_{jn}}{n-1}

刚好是 Z 中的第 i 行与第 j 行做内积再除以 n-1 的结果.

则协方差矩阵与中心化后的原始数据矩阵存在以下关联:

C=\frac 1 {n-1} XX^T

设要投影的单位向量为 V , 则得到的投影后的值为V\cdot Z=V^TZ, 投影后的方差为:

s^2 = \frac 1 {n-1} \sum_{i=1}^n (V^T \alpha_i- \frac 1 n\sum _{i=1} ^n(V^T\alpha_i))^2=\frac 1 {n-1} \sum_{i=1}^n V^T \alpha_i \alpha_i^TV = \frac{1}{n-1} V^TZZ^TV=V^TCV

其中 \alpha_iZ 中的第 i 列.

拉格朗日乘数法

S^2 最大值,限制条件: ||V||=1

构建方程:

F(V) = V^TCV-\lambda(V^TV-1)①

V 求导数得:

\frac {\partial F}{\partial V} = 2CV-2\lambda V

令导数为零得:

CV=\lambda V ②

这个形式是特征值和特征向量的定义式, Cn 阶方阵, V 是特征向量, \lambda 是特征值. 求特征值和特征向量需要进行特征值分解 (EVD) , 这是线性代数的内容.

降维

将 ② 代入 ① 得 s^2 = F(V) = \lambda, 特征值 λ 越大, 则散度越大.

将所有的特征值降序排列, 根据最终需要的维度 d 来选择前 d 大的特征值对应的特征向量, 并将特征向量单位化后组成矩阵 W = (w_1,w_2,\cdots,w_d), 由于每个点都可以视为在各个特征向量方向上的投影组成, 则最终降维后:

X_{d\times n} = W^TX = \begin{pmatrix} w1^T\\ w2^T\\ \vdots\\ w_d^T\\ \end{pmatrix} X

矩阵 X_{d\times n} 的第一行称为第一主成分, 以此类推.

关于 d 的选择:

按 czy 课件来的话, 要求 \displaystyle \frac{ \sum _{i=1}^d \lambda_i}{\sum_{i=1}^p \lambda_i}\geq 0.85 , p 为得到的特征值的数量.

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-12-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 10.1 主成分分析(PCA)
    • 目标
      • 向量内积
        • 散度
          • 拉格朗日乘数法
            • 降维
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档