发布于 2020-07-07 14:00:46
缩放不会影响任何基于树的方法的性能,对于lightgbm、xgboost、catboost甚至决策树都不会影响。
这个职位详细阐述了这个主题,但主要问题是决策树基于二进制决策将特征空间分割开来,比如“此功能是否大于此值?”,如果您缩放数据,决策看起来可能会有所不同,因为它们是在缩放空间上完成的,但结果应该是相同的。
例如,如果您更改单元(特定的缩放情况),决策树应该以相同的方式拆分数据。假设您希望使用一个人的权重来预测某人是否在18岁以下(作为二进制分类器)。如果以克为单位,决策树可能会做这样的事情:如果体重< 5000克,那么这个人就是18岁以下的人。如果你把这个单位改为公斤,决策树就会这样做:如果重量<5公斤,那么这个人就在18岁以下。
总之,在任何尺度下,或一般情况下,任何增加的线性变换下,分裂都是等价的。
https://datascience.stackexchange.com/questions/77312
复制相似问题