【算法】PCA算法

小莹莹

发布于 2018-04-18 16:19:31

1.9K0

文章被收录于专栏：PPV课数据科学社区PPV课数据科学社区

小编邀请您，先思考：

1 PCA算法的原理是什么？

2 PCA算法有什么应用？

主成分分析（PCA）是一种基于变量协方差矩阵对数据进行压缩降维、去噪的有效方法，PCA的思想是将n维特征映射到k维上（k<n），这k维特征称为主元，是旧特征的线性组合，这些线性组合最大化样本方差，尽量使新的k个特征互不相关。

1、协方差 Covariance

变量X和变量Y的协方差公式如下，协方差是描述不同变量之间的相关关系，协方差>0时说明 X和 Y是正相关关系，协方差<0时 X和Y是负相关关系，协方差为0时 X和Y相互独立。

协方差的计算是针对两维的，对于n维的数据集，可以计算C(n,2)种协方差。 n维数据的协方差矩阵的定义如下：

Dim(x)表示第x维。

对于三维(x,y,z)，其协方差矩阵如下，可看出协方差矩阵是一个对称矩阵（symmetrical），其对角线元素为每一维的方差：

2、特征向量和特征值　

可以这样理解：矩阵A作用在它的特征向量X上，仅仅使得X的长度发生了变化，缩放比例就是相应的特征值。

特征向量只能在方阵中找到，而且并不是所有的方阵都有特征向量，并且如果一个n*n的方阵有特征向量，那么就有n个特征向量。一个矩阵的所有特征向量是正交的，即特征向量之间的点积为0，一般情况下，会将特征向量归一化，即向量长度为1。

3、PCA过程

第一步，获取数据，下图中的Data为原始数据，一共有两个维度，可看出二维平面上的点。

下图是Data在二维坐标平面上的散点图：

第二步，减去平均值，对于Data中的每一维数据分别求平均值，并减去平均值，得到DataAdjust数据。

第三步，计算DataAdjust的协方差矩阵

第四步，计算协方差矩阵的特征向量和特征值，选取特征向量

特征值0.490833989对应的特征向量是（-0.735178656, 0.677873399），这里的特征向量是正交的、归一化的，即长度为1。

下图展示DataAdjust数据和特征向量的关系：

正号表示预处理后的样本点，斜着的两条线就分别是正交的特征向量（由于协方差矩阵是对称的，因此其特征向量正交），特征值较大的那个特征向量是这个数据集的主要成分（principle component）。

通常来说，当从协方差矩阵计算出特征向量之后，下一步就是通过特征值，对特征向量进行从大到小的排序，这将给出成分意义的顺序。成分的特征值越小，其包含的信息量也就越少，因此可以适当选择。　

如果数据中有n维，计算出n个特征向量和特征值，选择前k个特征向量，然后最终的数据集合只有k维，取的特征向量命名为FeatureVector。

这里特征值只有两个，我们选择其中最大的那个，1.28402771，对应的特征向量是

。

第五步，将样本点投影到选取的特征向量上，得到新的数据集

假设样例数为m，特征数为n，减去均值后的样本矩阵为DataAdjust(m*n)，协方差矩阵是n*n，选取的k个特征向量组成的矩阵为EigenVectors(n*k)。那么投影后的数据FinalData为

这里是FinalData(10*1) = DataAdjust(10*2矩阵)×特征向量

得到结果为

下图是FinalData根据最大特征值对应的特征向量转化回去后的数据集形式，可看出是将DataAdjust样本点分别往特征向量对应的轴上做投影：

如果取的k=2，那么结果是

可见，若使用了所有特征向量得到的新的数据集，转化回去之后，与原来的数据集完全一样（只是坐标轴旋转）。

END.

来源：数据科学与人工智能

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-03-21，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自 PPV课数据科学社区微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

【算法】PCA算法

【算法】PCA算法

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐