文章/答案/技术大牛

发布

社区首页 >问答首页 >基于树的算法需要什么特征工程？

问基于树的算法需要什么特征工程？
EN

Data Science用户

提问于 2017-08-08 15:00:47

回答 1查看 6.5K关注 0票数 12

我理解数据卫生，这可能是最基本的特性工程。这意味着确保所有数据都正确加载，确保N/As被视为一个特殊值，而不是一个介于-1和1之间的数字，并正确地标记您的分类值。

在过去，我做了大量的线性回归分析。因此，特征工程主要涉及：

使用log、指数、幂变换将特征转化为正确的标度。
乘性特征:如果你有高度和宽度，乘成面积。
选择特征:根据P值删除特征

但是，对于LightGBM (和随机森林)来说，这些特性的规模似乎并不重要，因为可排序的项目是有序的，然后是随机的二分法。特征的交互并不重要，因为其中一个弱分类器应该找到它，如果它是重要的。而特征选择并不重要，因为如果效果很弱，那么这些分类器就会被削弱。

所以，假设你找不到更多的数据来输入，那么决策树模型应该做什么特性工程呢？

xgboost

gradient-descent

feature-engineering

feature-selection

decision-trees

回答 1

Data Science用户

回答已采纳

发布于 2017-08-08 15:22:21

我认为对于基于树的算法来说，特性工程是必不可少的：

模块算术计算:例如将时间戳转换为一周中的一天，或一天中的时间。如果你的模型需要知道每个月的第三个星期一发生了什么事情，那就几乎不可能用时间戳来确定这一点。
同样，根据现有数据创建新功能可以极大地提高您的预测能力。这是领域知识非常重要的地方--如果你知道，或者认为你知道一种关系，那么你可以包括描述这种关系的变量。这是因为基于树的方法只能创建水平或垂直的分割(即与数据正交)。
维数约简通常通过特征选择或特征转换来执行。通过特征选择降低维数可能对您提到的模型没有多大帮助，但是一个算法可能受益于或不可能受益于特征转换(例如，主成分分析)，这取决于过程中丢失了多少信息。唯一确定的方法是探索功能转换是否提供了更好的性能。

票数 12

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/22072

复制

相似问题

问基于树的算法需要什么特征工程？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于树的算法需要什么特征工程？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于树的算法需要什么特征工程？
EN