文章/答案/技术大牛

发布

PCA主成分分析

文章来源：企鹅号 - AI从零开始

anx

ious

PCA主成分分析

（进阶篇）

本期内容安排

1、图解PCA

2、做PCA一般步骤

3、详解PCA原理，破解疑点

我们的目标，破解所有疑点

图解PCA

1.什么是PCA

主成分分析（principal components analysis, PCA）是一个简单的机器学习降维算法，可以通过基础的线性代数知识推导。在机器学习中，该技术多应用于数据可视化和特征选择，由于处理的数据时无标签的，通过维度的线性变换而来，所以是无监督降维方法。

在前边介绍的部分空间约束的最小二乘学习进行回归的方法中，如何设置适宜的部分空间是关键，通过主成分分析法来求解这个部分空间，并在这个空间里进行主成分回归的算法称为主成分回归。

图解PCA

通俗的讲，PCA降维就是通过线性变换，减少数据维度，保留数据主要信息。线性变换是PCA的方法，减少数据维度是为了降低数据的量，避免维度灾难，最后，经过变换后数据还要保留数据的主要信息。

举个形象的例子哈，比如我的手掌数据，是个三维的实体，具有三维的数据，这个数据量还是很庞大的，现在我们对手掌这个三维物体做投影，得到手掌的影子，这是二维的，如果投影角度较好，从影子中就可以认出这是一只手掌。这就实现了一个降维，保留了手掌的主要信息。

如果投影角度不好，我们是很难从影子中分辨出这是一个手掌的信息，所以合适的投影角度是关键。

这个投影角度我们是很难从影子中看出，这是一只手掌。

PCA降维的一般步骤

PCA降维的一般步骤

第一步：给定数据信息d行n列X，行表示维度信息，列表示数据个数。

第二步：中心化处理，对每一个维度数据做中心化。

第三步：计算中心化处理后数据的协方差矩阵。

第四步：对协方差矩阵做特征值分解，将得到的特征值按从大到小的顺序排列，特征向量对应特征值依次排列组成特征向量矩阵。

第五步：用特征向量矩阵的转置作为基变换矩阵，对数据进行线性变换Y=PX。

步骤详解

1、在第一步中，比如手掌数据可以由空间坐标（三个维度）和空间姿态（三个维度）共计六个维度来表示，即d=6，n表示组成手掌数据的个数。

2、在第二步中，做中心化处理的目的在于后面基变换时是做的旋转变换，维度的方差数据能够更好的表示数据的特征强度。同时数据中心化操作队数据的协方差矩阵的计算式没有影响的，从协方差公式就可以看出，下面的公式是2维的协方差，高维的同样，经中心化处理维度的均值为0。

3、在第三步中，协方差矩阵反映了数据的两个信息，一是同一维度的方差信息，二是不同维度的协方差信息。我们希望协方差矩阵同一纬度方差越大越好，不同维度方差越小越好。这是因为同一维度方差越大，说明这个维度的信息量越大，反映的数据特征越强烈；协方差越小，说明维度间相关性越差，独立性越好。举个例子说明一下这个问题，还是举手掌的例子，我们考虑手掌的长度和宽度两个信息，这两个维度间的信息相关性是很强的，因为一般手掌越长其宽度就越宽，他们之间存在一个相对稳定的比例。长度和宽度都可以反映手掌的大小，宽度越大其手掌一般越大，长度越长其手掌的大小也越大，经PCA降维处理之后，手掌宽度和长度数据就变为一维数据，这一维度数据也能反映手掌的大小。也就是说，手掌大小的可以由一位数据表示也可以由二维数据表示，为了减少数据量，我们可以采用PCA进行降维处理，变为一维数据，用以反映手掌大小，这一维数据时没有实际意义的，他不表示宽度信息也不表示长度信息，是宽度和长度的线性组合。

从图中我们可以看出，用红线这一个维度方向就可以来表征手掌的大小，是手掌长度和宽度的线性组合。当然，经变换后这些数据点都正投影在了这条红线上，是一个维度信息。（程序代码都放在了我们的qq群：AI从零开始（683993933））

4、在第四步中，协方差矩阵的特征值表示特征向量方向上的方差。特征向量矩阵是单位正交矩阵，只表示基的旋转变换，不表示基的伸缩变换，这一点在上一期推文中有讲。按照特征值得大小对特征向量进行排序，如果是降维的话，就选择较大的特征值对应的特征向量作为基变换矩阵的转置。

5、在第五步中，由于基变换矩阵是由数据协方差矩阵的特征向量组合的，所以只对数据矩阵做选择变换，没有伸缩变换，正因如此，特征向量的方向就是使得方差最大（特征值）的方向，这一点的原理将在下一部分给出详细说明。

如果你只是单纯想知道什么是PCA降维和如何做PCA降维，

那么恭喜你，看到这你的目的已经达到，

接下来的内容就是数学原理的推到了，选看！

详解PCA原理，破解疑点

三层理解与

基变换矩阵实质是对原数据进行旋转变换的原理

由于公式较多，不好上传到公众号，我将其保存到Word文档里，放在了qq群里，有兴趣的可以自行下载。

重构差值最小公式推导

来看看我们的《图解机器学习》，给大家推导一下中间的公式

公式打的太慢，还是给大家手写吧

再来看看周志华老师的《机器学习》上的一个公式的推导

终于写完了，今天写了三个小时没保存，又重新写的~~~

以上内容参考了如下资料，可下载，更多资料和程序代码以及技术文档，请自行到我们qq资源群下载！

机器学习_周志华.pdf

深度学习.pdf

1天读懂深度学习.pdf

图解机器学习.pdf

发表于: 2017-12-102017-12-10 00:00:35
原文链接：http://kuaibao.qq.com/s/20171210G00IBA00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

PCA主成分分析

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐