在机器学习中,特征的维度通常成百上千,给模型的设计和优化造成了困扰。因而如何找出对结果影响最大的影响因素自然而然的成为克服上述问题的一个可能途径。主成分分析(Principal Component Analysis,PCA)给人们提供了这样一个方法。
PCA的思想是将n维的特征映射到k(K<n)个正交的维度上,这k个维度能够反映原始变量的绝大部分信息,通常表示为原始n维变量的某种线性组合,而不是简单的从n维特征中去除n-k个特征。因此,PCA也存在一些限制,例如:
PCA降维算法中最经典的做法就是依据维度的方差来选取,因为方差越大,包含的信息越多。因此,首先在所有的线性组合中选取方差最大的作为F1;如果F1不足以代表原来的M个指标的信息,则再考虑选取F2,此时F1中已有的信息不需要出现在F2中。具体的方法步骤参见https://qinqianshan.com/math/gradient/pca-analysis/
参考:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。