我仍然在探索机器学习的这一领域,尽管我知道特征选择和降维之间的区别,但我发现在掌握何时进行特征选择或降维(或两者兼而有之)的概念上存在一些困难。
假设我有一个包含大约40个特征的数据集,那么单独执行降维还是单独进行特征选择是一种好的做法?或者应该有两种方法的混合(即先进行特征选择,然后进行降维-或者反之亦然)?
发布于 2017-12-17 01:33:58
特征选择这个术语有点误导。它可以有两种含义:
例如,在图像数据集中找到旋转不变点,或者在将身高和体重作为新特征时创建BMI作为新特征,根据某种度量仅features.
这是降维过程的一个步骤。所谓的降维过程实际上包括两个步骤:
- Transforming the original features to new (artificial) features by changing the basis.例如。PCA通过找到一组正交特征来实现这一点,从而使每个轴上的方差最大化。
-仅保留上述步骤中产生的最重要的特征(重要性由某种度量定义)。这实际上是一个特征选择步骤。
例如:在PCA中,这是通过仅保留具有最高解释方差的前k个特征来实现的。
至于上面(1)和(2)的顺序应该发生:我认为这取决于问题。
如果有足够的领域知识来构建/选择特征来满足手头的问题,我们应该首先进行手动特征工程(加上选择)。如果该特征工程/选择过程仍然产生大量特征,则可以进行所谓的降维,以找到能够用甚至更少数量的在现实生活中几乎没有意义的全新特征来表示数据的子空间。
如果领域知识不能向数据集添加任何东西,那么只需进行降维就可以了,这实际上包含了一个特征选择步骤。
从广义上讲,我们可以认为特征选择实际上是降维的一种特例,在这种情况下,原始数据集不会发生基础变化。
https://stackoverflow.com/questions/47846923
复制相似问题