我理解数据卫生,这可能是最基本的特性工程。这意味着确保所有数据都正确加载,确保N/As被视为一个特殊值,而不是一个介于-1和1之间的数字,并正确地标记您的分类值。
在过去,我做了大量的线性回归分析。因此,特征工程主要涉及:
但是,对于LightGBM (和随机森林)来说,这些特性的规模似乎并不重要,因为可排序的项目是有序的,然后是随机的二分法。特征的交互并不重要,因为其中一个弱分类器应该找到它,如果它是重要的。而特征选择并不重要,因为如果效果很弱,那么这些分类器就会被削弱。
所以,假设你找不到更多的数据来输入,那么决策树模型应该做什么特性工程呢?
发布于 2017-08-08 15:22:21
我认为对于基于树的算法来说,特性工程是必不可少的:
https://datascience.stackexchange.com/questions/22072
复制相似问题