我的数据集中有一个名为distances
的特性,其范围从200到12000 (或多或少)。由于其他特性的值都低于50,所以我需要在distances
中进行一些转换。
我想到的第一件事是将它正常化,例如,将这个特性保持在0到10之间。但是,用这种方法,我可能有很多不同的价值,这可能会产生太多的分裂。
我考虑的另一种方法是确定范围。例如
From 0 to 1000 => 1
From 1000 to 3000 => 2
From 3000 to 6000 => 3
From 6000 to 12000 => 4
//Or +6000 => 4
我相信这种方法会更好,因为决定三将只有4个分支机构为这一分裂。
现在我的问题是:
就像这样:
From 0 to 3000 => 1
From 3000 to 6000 => 2
From 6000 to 9000 => 3
From 9000 to 12000 => 4
//Or +9000 => 4
我之所以遵循第一种方法,是因为distances
比高值得到了更多的观测值。因此,我试图得到一个平衡的功能,在这四个类别中每一个都有相似的观察量。
使用第二种方法,几乎所有的观测结果都是1或2型的,因为大多数distances
都小于5000个单位。然而,我不确定这是否是我应该关注的回归决策树。
发布于 2021-12-13 16:56:12
考虑到您使用的是回归决策树算法,您提到的所有问题都不值得关注。您应该能够成功地将回归决策树算法与原始数据相匹配。在使用基于树的模型时,没有理由对这些特性进行规范化或存储。
https://datascience.stackexchange.com/questions/34130
复制