首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

什么时候使用PCA和LDA?

在机器学习中,如果都能够挑选出少而精的特征了,那PCA等降维算法确实没有必要。但一些情况下原始数据维度非常高,然而我们又没有办法想出有效的特征,这个时候就需要用PCA等工具来降低数据的维度,使得数据可以用于统计学习的算法。我之前所在的一个研究小组就把PCA用在了文字数据上。文字数据处理 (vectorize) 后一个样本的每一维对应这一个词。然而可以想象在一个文本数据集中,总的不同的词的个数是非常多的,因此样本维度常常上万。这样高维度的数据如果直接用来训练统计学习的算法得到的模型通常不具有统计学上的显著性。因此,我们将sparse PCA应用在原始数据上,找到不同的词之间的线性相关性,将高相关的词合并为一个特征,这就是所谓的话题模型 (topic modeling)。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180209A0OVGQ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券