问如何在具有大量特征的数据集中进行特征选择或特征工程？
EN

Data Science用户

提问于 2022-03-13 16:16:25

回答 1查看 45关注 0票数 1

为了建立一个良好的ML模型，我们必须选择能够提高模型精度的特征，如果需要的话，还要“工程”特征(例如，如果与预测变量不线性相关，则应用对数或平方等函数对线性回归预测器)。但是，我如何才能对一个拥有大量功能的大数据集做到这一点呢？我应该在不同的条件下测试每一个变量，还是有一些更简单的方法来进行特征选择或特征工程。

feature-selection

feature-engineering

predictive-modeling

回答 1

Data Science用户

发布于 2022-03-14 12:23:29

首先，它是一个非常广泛的问题，如果不了解具体的问题，就很难给出一个一般性的答案，您可以做的一件事就是应用PCA，这样您就可以开始研究您解释了更多差异的许多特性中的哪些。

然后做了这样的旋转(也就是说，你在协方差运算符的特征向量上重写了你的特征)，如果你想的话，你可以开始减少你的特征，或者把你的注意力集中在最重要的特征上，也是为了找到(高阶)相关性。

然后，我应用的一般“技术”如下:将特征工程作为第二步，以误差分析为先导，即训练基线模型并执行错误分析，只有这样，您才能找到真正提高模型性能的正确操作。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/109013

复制

相似问题

问如何在具有大量特征的数据集中进行特征选择或特征工程？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在具有大量特征的数据集中进行特征选择或特征工程？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在具有大量特征的数据集中进行特征选择或特征工程？
EN