首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >机器学习--特征选择还是降维?

机器学习--特征选择还是降维?
EN

Stack Overflow用户
提问于 2017-12-16 23:00:07
回答 1查看 97关注 0票数 0

我仍然在探索机器学习的这一领域,尽管我知道特征选择和降维之间的区别,但我发现在掌握何时进行特征选择或降维(或两者兼而有之)的概念上存在一些困难。

假设我有一个包含大约40个特征的数据集,那么单独执行降维还是单独进行特征选择是一种好的做法?或者应该有两种方法的混合(即先进行特征选择,然后进行降维-或者反之亦然)?

EN

回答 1

Stack Overflow用户

发布于 2017-12-17 01:33:58

特征选择这个术语有点误导。它可以有两种含义:

  1. 通过整合领域知识来选择特征(这也涉及到构造新特征)。

例如,在图像数据集中找到旋转不变点,或者在将身高和体重作为新特征时创建BMI作为新特征,根据某种度量仅features.

  • Keeping高重要性的特征。

这是降维过程的一个步骤。所谓的降维过程实际上包括两个步骤:

代码语言:javascript
运行
复制
- Transforming the original features to new (artificial) features by changing the basis.

例如。PCA通过找到一组正交特征来实现这一点,从而使每个轴上的方差最大化。

-仅保留上述步骤中产生的最重要的特征(重要性由某种度量定义)。这实际上是一个特征选择步骤。

例如:在PCA中,这是通过仅保留具有最高解释方差的前k个特征来实现的。

至于上面(1)和(2)的顺序应该发生:我认为这取决于问题。

如果有足够的领域知识来构建/选择特征来满足手头的问题,我们应该首先进行手动特征工程(加上选择)。如果该特征工程/选择过程仍然产生大量特征,则可以进行所谓的降维,以找到能够用甚至更少数量的在现实生活中几乎没有意义的全新特征来表示数据的子空间。

如果领域知识不能向数据集添加任何东西,那么只需进行降维就可以了,这实际上包含了一个特征选择步骤。

从广义上讲,我们可以认为特征选择实际上是降维的一种特例,在这种情况下,原始数据集不会发生基础变化。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47846923

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档