在机器学习中,如果都能够挑选出少而精的特征了,那PCA等降维算法确实没有必要。但一些情况下原始数据维度非常高,然而我们又没有办法想出有效的特征,这个时候就需要用PCA等工具来降低数据的维度,使得数据可以用于统计学习的算法。我之前所在的一个研究小组就把PCA用在了文字数据上。文字数据处理 (vectorize) 后一个样本的每一维对应这一个词。然而可以想象在一个文本数据集中,总的不同的词的个数是非常多的,因此样本维度常常上万。这样高维度的数据如果直接用来训练统计学习的算法得到的模型通常不具有统计学上的显著性。因此,我们将sparse PCA应用在原始数据上,找到不同的词之间的线性相关性,将高相关的词合并为一个特征,这就是所谓的话题模型 (topic modeling)。
领取专属 10元无门槛券
私享最新 技术干货