首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在具有大量特征的数据集中进行特征选择或特征工程?

如何在具有大量特征的数据集中进行特征选择或特征工程?
EN

Data Science用户
提问于 2022-03-13 16:16:25
回答 1查看 45关注 0票数 1

为了建立一个良好的ML模型,我们必须选择能够提高模型精度的特征,如果需要的话,还要“工程”特征(例如,如果与预测变量不线性相关,则应用对数或平方等函数对线性回归预测器)。但是,我如何才能对一个拥有大量功能的大数据集做到这一点呢?我应该在不同的条件下测试每一个变量,还是有一些更简单的方法来进行特征选择或特征工程。

EN

回答 1

Data Science用户

发布于 2022-03-14 12:23:29

首先,它是一个非常广泛的问题,如果不了解具体的问题,就很难给出一个一般性的答案,您可以做的一件事就是应用PCA,这样您就可以开始研究您解释了更多差异的许多特性中的哪些。

然后做了这样的旋转(也就是说,你在协方差运算符的特征向量上重写了你的特征),如果你想的话,你可以开始减少你的特征,或者把你的注意力集中在最重要的特征上,也是为了找到(高阶)相关性。

然后,我应用的一般“技术”如下:将特征工程作为第二步,以误差分析为先导,即训练基线模型并执行错误分析,只有这样,您才能找到真正提高模型性能的正确操作。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/109013

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档