首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何处理决策树中的数据

如何处理决策树中的数据
EN

Stack Overflow用户
提问于 2017-10-22 15:54:24
回答 2查看 86关注 0票数 0

我正在尝试为我从Kaggle获得的数据集创建决策树。因为我没有处理真实数据集的经验,所以我不知道如何处理数据的清理、集成和缩放(主要是缩放)。

例如,假设我有一个具有实数的特征。因此,我希望通过将分类数据扩展到特定数量的组(用于决策树)来实现类似于分类数据的功能。

在这种情况下,我不知道有多少组数据对于决策树来说是合理的。我确信这取决于特征的数据分布和目标数据集中唯一值的数量,但我不知道如何通过查看分布和目标数据集找到好的猜测。我最好的猜测是将特征的数据划分为与目标数据集的唯一值的数量相似的数量。(我甚至不知道这是否有意义。)

当我从学校学习时,我已经得到了每个特征的2-5个分类数据,所以我不必担心,但现实生活与学校完全不同。

请帮帮我。

EN

回答 2

Stack Overflow用户

发布于 2017-10-22 18:40:41

对于DT的

  • ,您需要数字数据是数字的,分类的-以虚拟样式。数值列不需要缩放。

  • 使用one-hot编码来处理分类数据。请确保在一次热编码之前,你有相当多的每个特征的量(>= 5%),否则分组小变量。

  • 和考虑其他模型。DT很好,但它是老式的,很容易被过度安装。
票数 2
EN

Stack Overflow用户

发布于 2017-10-25 01:56:14

您可以使用决策树回归器,它消除了将实数按类别分层的需要:http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html

执行此操作时,将有助于将输入数据缩放为零均值和单位方差;这有助于防止任何大类别输入主导模型

也就是说,决策树可能不是最好的选择。或者(最有可能的)多个模型的集合(甚至是一个随机森林)。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46871759

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档