我正在尝试为我从Kaggle获得的数据集创建决策树。因为我没有处理真实数据集的经验,所以我不知道如何处理数据的清理、集成和缩放(主要是缩放)。
例如,假设我有一个具有实数的特征。因此,我希望通过将分类数据扩展到特定数量的组(用于决策树)来实现类似于分类数据的功能。
在这种情况下,我不知道有多少组数据对于决策树来说是合理的。我确信这取决于特征的数据分布和目标数据集中唯一值的数量,但我不知道如何通过查看分布和目标数据集找到好的猜测。我最好的猜测是将特征的数据划分为与目标数据集的唯一值的数量相似的数量。(我甚至不知道这是否有意义。)
当我从学校学习时,我已经得到了每个特征的2-5个分类数据,所以我不必担心,但现实生活与学校完全不同。
请帮帮我。
发布于 2017-10-22 18:40:41
对于DT的
发布于 2017-10-25 01:56:14
您可以使用决策树回归器,它消除了将实数按类别分层的需要:http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html
执行此操作时,将有助于将输入数据缩放为零均值和单位方差;这有助于防止任何大类别输入主导模型
也就是说,决策树可能不是最好的选择。或者(最有可能的)多个模型的集合(甚至是一个随机森林)。
https://stackoverflow.com/questions/46871759
复制相似问题