首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于树的算法需要什么特征工程?

基于树的算法需要什么特征工程?
EN

Data Science用户
提问于 2017-08-08 15:00:47
回答 1查看 6.5K关注 0票数 12

我理解数据卫生,这可能是最基本的特性工程。这意味着确保所有数据都正确加载,确保N/As被视为一个特殊值,而不是一个介于-1和1之间的数字,并正确地标记您的分类值。

在过去,我做了大量的线性回归分析。因此,特征工程主要涉及:

  • 使用log、指数、幂变换将特征转化为正确的标度。
  • 乘性特征:如果你有高度和宽度,乘成面积。
  • 选择特征:根据P值删除特征

但是,对于LightGBM (和随机森林)来说,这些特性的规模似乎并不重要,因为可排序的项目是有序的,然后是随机的二分法。特征的交互并不重要,因为其中一个弱分类器应该找到它,如果它是重要的。而特征选择并不重要,因为如果效果很弱,那么这些分类器就会被削弱。

所以,假设你找不到更多的数据来输入,那么决策树模型应该做什么特性工程呢?

EN

回答 1

Data Science用户

回答已采纳

发布于 2017-08-08 15:22:21

我认为对于基于树的算法来说,特性工程是必不可少的:

  • 模块算术计算:例如将时间戳转换为一周中的一天,或一天中的时间。如果你的模型需要知道每个月的第三个星期一发生了什么事情,那就几乎不可能用时间戳来确定这一点。
  • 同样,根据现有数据创建新功能可以极大地提高您的预测能力。这是领域知识非常重要的地方--如果你知道,或者认为你知道一种关系,那么你可以包括描述这种关系的变量。这是因为基于树的方法只能创建水平或垂直的分割(即与数据正交)。
  • 维数约简通常通过特征选择或特征转换来执行。通过特征选择降低维数可能对您提到的模型没有多大帮助,但是一个算法可能受益于或不可能受益于特征转换(例如,主成分分析),这取决于过程中丢失了多少信息。唯一确定的方法是探索功能转换是否提供了更好的性能。
票数 12
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/22072

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档