在机器学习中,更多的特征或维度会降低模型的精度,因为有更多的数据需要泛化 和 ,这就是所谓的维数灾难。
降维是一种降低模型复杂性并避免过拟合的方法。主成分分析(PCA)算法用于将数据集压缩为低维特征,以降低模型的复杂性。
我应该在什么时候/如何考虑我的数据集具有许多特征,并且我应该寻找PCA来进行降维?
发布于 2019-06-09 21:32:40
简单的答案是,当我们需要处理维度的诅咒时,可以使用Its
什么时候应该使用PCA?
如果你对所有三个问题的回答都是“是”,那么PCA是一个很好的使用方法。如果你对问题3的回答是“否”,你就不应该使用PCA. Good tutorial is here
发布于 2020-02-06 22:07:45
让我对此提供另一种观点。
通常,您可以出于两个主要原因使用主成分分析:
用于压缩的
- To reduce space to store your data, for example.
- To speed up your learning algorithm (selecting the principal components with more variance). Looking at the cumulative variance of the components.
用于可视化目的的
https://stackoverflow.com/questions/56514725
复制相似问题