文章/答案/技术大牛

发布

社区首页 >问答首页 >python中决策树中如何使用分类数据

问python中决策树中如何使用分类数据
EN

Stack Overflow用户

提问于 2018-10-30 13:22:28

回答 2查看 6.2K关注 0票数 0

我有一个数据集，我已经从其中提取了12个特征，用于使用决策树的共同引用解析任务。这些特性的一些例子如下：

distance_feature()：根据句子的数量，i和j之间的距离。产出:0或1

- Ispronoun\_feature(): this feature is set to true if a noun phrase is a pronoun.
- appositive\_feature(): This feature checks if `j` is in apposition of `i`.

在创建所有这些特性以从数据集中提取结果之后，我不知道如何选择根节点，也不知道如何使用sci学习决策树算法，因为数据不是结构化的，而且是绝对的。我读过的一篇论文提到了熵和信息增益，但是这两个属性的所有例子都是基于结构化数据集的。

python

machine-learning

scikit-learn

回答 2

Stack Overflow用户

发布于 2018-10-30 13:35:30

如果您有不同类别的不同特性，并且不想自己花时间对它们进行编码，我建议您使用CatBoost框架，它也比树的标准scikit实现更快。

检查这个卡格尔的实现！

票数 1

Stack Overflow用户

发布于 2018-10-30 13:26:27

使用一种热编码。

df = pd.get_dummies(df, [categorical_columns_you_want_to_encode])

如果最后有太多的列，您可以预处理您的列以删除不常见的值，例如小于1%的值，以避免列数过多。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53065283

复制

相似问题

问python中决策树中如何使用分类数据
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问python中决策树中如何使用分类数据EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问python中决策树中如何使用分类数据
EN