前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >PCA算法流程及个人理解

PCA算法流程及个人理解

作者头像
CristianoC
发布2020-06-02 11:14:25
2.4K0
发布2020-06-02 11:14:25
举报
前言

PCA,即主成分分析,是一种数据降维的方法,旨在利用降维的思想,把多指标转化为少数几个综合指标,降低数据维数,从而实现提升数据处理速度的目的。

流程

1.数据标准化处理。

先按列计算数据集X的均值Xmean,然后Xnew=X−XmeanXnew=X−Xmean进行归一化处理。

2.求解矩阵Xnew的协方差矩阵。

3. 计算协方差矩阵的特征值和相应的特征向量。

4.将特征值按照从大到小的排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。 5.计算降维后的数据集,即将归一化的数据集投影到选取的特征向量矩阵上,这样就得到了我们需要的已经降维的数据集。

个人理解

PCA算法的核心降维其实就是把高维的数据选取一组组基底(即协方差矩阵计算出特征向量)进行分解,这个基底要让高维分解的数据尽量包含更多的信息(方差:数据更分散;协方差:线性无关),毕竟高维数据变成低维数据肯定要损失一些信息,我们要让它的损失降到最小。我们选取包含更多信息的基底可得到对样本起决定性作用最大的前K个特征(特征矩阵)。最后我们只需要把测试的样本进行降维操作(投影)后和一个个降维后人脸样本(投影)进行做差,若差值小于某个我们设定的数值(阈值),我们则可以认为是同一个人脸。

优缺点

1.优点

1)它是无监督学习,无参数限制的。

2)PCA对数据降维的同时也对新求出的特征值进行排序,根据所设置的阈值进行根据重要性程度的排列,可以达到在降维的同时最大程度保留原有信息。

3)各个主成分之间正交,无原始数据之间的互相影响。

2.缺点

1)贡献率小的成分有时含有样本的重要信息。

2)如果我们对所识别对象有一定认识,掌握了一些特征,无法通过参数的设置来干预。

3)非高斯分布的情况下,PCA方法得出的主元可能不是最优的。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-10-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 计算机视觉漫谈 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档