PCA主成分分析

anx

A

ious

PCA主成分分析

(进阶篇)

本期内容安排

1、图解PCA

2、做PCA一般步骤

3、详解PCA原理,破解疑点

我们的目标,破解所有疑点

图解PCA

1

1.什么是PCA

主成分分析(principal components analysis, PCA)是一个简单的机器学习降维算法,可以通过基础的线性代数知识推导。在机器学习中,该技术多应用于数据可视化和特征选择,由于处理的数据时无标签的,通过维度的线性变换而来,所以是无监督降维方法。

在前边介绍的部分空间约束的最小二乘学习进行回归的方法中,如何设置适宜的部分空间是关键,通过主成分分析法来求解这个部分空间,并在这个空间里进行主成分回归的算法称为主成分回归。

2

图解PCA

通俗的讲,PCA降维就是通过线性变换,减少数据维度,保留数据主要信息。线性变换是PCA的方法,减少数据维度是为了降低数据的量,避免维度灾难,最后,经过变换后数据还要保留数据的主要信息。

举个形象的例子哈,比如我的手掌数据,是个三维的实体,具有三维的数据,这个数据量还是很庞大的,现在我们对手掌这个三维物体做投影,得到手掌的影子,这是二维的,如果投影角度较好,从影子中就可以认出这是一只手掌。这就实现了一个降维,保留了手掌的主要信息。

如果投影角度不好,我们是很难从影子中分辨出这是一个手掌的信息,所以合适的投影角度是关键。

这个投影角度我们是很难从影子中看出,这是一只手掌。

PCA降维的一般步骤

3

PCA降维的一般步骤

第一步:给定数据信息d行n列X,行表示维度信息,列表示数据个数。

第二步:中心化处理,对每一个维度数据做中心化。

第三步:计算中心化处理后数据的协方差矩阵。

第四步:对协方差矩阵做特征值分解,将得到的特征值按从大到小的顺序排列,特征向量对应特征值依次排列组成特征向量矩阵。

第五步:用特征向量矩阵的转置作为基变换矩阵,对数据进行线性变换Y=PX。

4

步骤详解

1、在第一步中,比如手掌数据可以由空间坐标(三个维度)和空间姿态(三个维度)共计六个维度来表示,即d=6,n表示组成手掌数据的个数。

2、在第二步中,做中心化处理的目的在于后面基变换时是做的旋转变换,维度的方差数据能够更好的表示数据的特征强度。同时数据中心化操作队数据的协方差矩阵的计算式没有影响的,从协方差公式就可以看出,下面的公式是2维的协方差,高维的同样,经中心化处理维度的均值为0。

3、 在第三步中,协方差矩阵反映了数据的两个信息,一是同一维度的方差信息,二是不同维度的协方差信息。我们希望协方差矩阵同一纬度方差越大越好,不同维度方差越小越好。这是因为同一维度方差越大,说明这个维度的信息量越大,反映的数据特征越强烈;协方差越小,说明维度间相关性越差,独立性越好。举个例子说明一下这个问题,还是举手掌的例子,我们考虑手掌的长度和宽度两个信息,这两个维度间的信息相关性是很强的,因为一般手掌越长其宽度就越宽,他们之间存在一个相对稳定的比例。长度和宽度都可以反映手掌的大小,宽度越大其手掌一般越大,长度越长其手掌的大小也越大,经PCA降维处理之后,手掌宽度和长度数据就变为一维数据,这一维度数据也能反映手掌的大小。也就是说,手掌大小的可以由一位数据表示也可以由二维数据表示,为了减少数据量,我们可以采用PCA进行降维处理,变为一维数据,用以反映手掌大小,这一维数据时没有实际意义的,他不表示宽度信息也不表示长度信息,是宽度和长度的线性组合。

从图中我们可以看出,用红线这一个维度方向就可以来表征手掌的大小,是手掌长度和宽度的线性组合。当然,经变换后这些数据点都正投影在了这条红线上,是一个维度信息。(程序代码都放在了我们的qq群:AI从零开始(683993933))

4、在第四步中,协方差矩阵的特征值表示特征向量方向上的方差。特征向量矩阵是单位正交矩阵,只表示基的旋转变换,不表示基的伸缩变换,这一点在上一期推文中有讲。按照特征值得大小对特征向量进行排序,如果是降维的话,就选择较大的特征值对应的特征向量作为基变换矩阵的转置。

5、在第五步中,由于基变换矩阵是由数据协方差矩阵的特征向量组合的,所以只对数据矩阵做选择变换,没有伸缩变换,正因如此,特征向量的方向就是使得方差最大(特征值)的方向,这一点的原理将在下一部分给出详细说明。

如果你只是单纯想知道什么是PCA降维和如何做PCA降维,

那么恭喜你,看到这你的目的已经达到,

接下来的内容就是数学原理的推到了,选看!

详解PCA原理,破解疑点

5

三层理解与

基变换矩阵实质是对原数据进行旋转变换的原理

由于公式较多,不好上传到公众号,我将其保存到Word文档里,放在了qq群里,有兴趣的可以自行下载。

6

重构差值最小公式推导

来看看我们的《图解机器学习》,给大家推导一下中间的公式

公式打的太慢,还是给大家手写吧

再来看看周志华老师的《机器学习》上的一个公式的推导

终于写完了,今天写了三个小时没保存,又重新写的~~~

以上内容参考了如下资料,可下载,更多资料和程序代码以及技术文档,请自行到我们qq资源群下载!

机器学习_周志华.pdf

深度学习.pdf

1天读懂深度学习.pdf

图解机器学习.pdf

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20171210G00IBA00?refer=cp_1026

扫码关注云+社区