为了建立一个良好的ML模型,我们必须选择能够提高模型精度的特征,如果需要的话,还要“工程”特征(例如,如果与预测变量不线性相关,则应用对数或平方等函数对线性回归预测器)。但是,我如何才能对一个拥有大量功能的大数据集做到这一点呢?我应该在不同的条件下测试每一个变量,还是有一些更简单的方法来进行特征选择或特征工程。
发布于 2022-03-14 12:23:29
首先,它是一个非常广泛的问题,如果不了解具体的问题,就很难给出一个一般性的答案,您可以做的一件事就是应用PCA,这样您就可以开始研究您解释了更多差异的许多特性中的哪些。
然后做了这样的旋转(也就是说,你在协方差运算符的特征向量上重写了你的特征),如果你想的话,你可以开始减少你的特征,或者把你的注意力集中在最重要的特征上,也是为了找到(高阶)相关性。
然后,我应用的一般“技术”如下:将特征工程作为第二步,以误差分析为先导,即训练基线模型并执行错误分析,只有这样,您才能找到真正提高模型性能的正确操作。
https://datascience.stackexchange.com/questions/109013
复制相似问题