前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >主成分分析PCA

主成分分析PCA

原创
作者头像
yangzelong
修改2019-04-02 10:36:38
6400
修改2019-04-02 10:36:38
举报
文章被收录于专栏:YzlWHUYzlWHU

在机器学习中,特征的维度通常成百上千,给模型的设计和优化造成了困扰。因而如何找出对结果影响最大的影响因素自然而然的成为克服上述问题的一个可能途径。主成分分析(Principal Component Analysis,PCA)给人们提供了这样一个方法。

PCA的思想是将n维的特征映射到k(K<n)个正交的维度上,这k个维度能够反映原始变量的绝大部分信息,通常表示为原始n维变量的某种线性组合,而不是简单的从n维特征中去除n-k个特征。因此,PCA也存在一些限制,例如:

  • 它可以很好的解除线性相关,但是对于高阶的相关性就没有办法,对于存在高阶相关性的数据,可以考虑Kernel PCA,通过Kernel函数将非线性相关转换为线性相关;
  • PCA假设数据各主要特征是分布在正交方向上的,如果在非正交方向上存在几个方差较大的方向,则PCA的效果就大打折扣;
  • PCA对于噪声敏感,只能对一些类似高斯分布的数据有效,但对于复杂分布的数据(如流形分布)无效;
  • PCA是一种无参技术,导致面对同样的数据,如果不考虑清洗,结果都一样,没有主观参数的介入,所以PCA便于通用实现,无法个性化的优化

PCA降维算法中最经典的做法就是依据维度的方差来选取,因为方差越大,包含的信息越多。因此,首先在所有的线性组合中选取方差最大的作为F1;如果F1不足以代表原来的M个指标的信息,则再考虑选取F2,此时F1中已有的信息不需要出现在F2中。具体的方法步骤参见https://qinqianshan.com/math/gradient/pca-analysis/

参考:

https://zhuanlan.zhihu.com/p/36546123

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档