首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >python中决策树中如何使用分类数据

python中决策树中如何使用分类数据
EN

Stack Overflow用户
提问于 2018-10-30 13:22:28
回答 2查看 6.2K关注 0票数 0

我有一个数据集,我已经从其中提取了12个特征,用于使用决策树的共同引用解析任务。这些特性的一些例子如下:

  • distance_feature():根据句子的数量,i和j之间的距离。产出:0或1
代码语言:javascript
运行
复制
- Ispronoun\_feature(): this feature is set to true if a noun phrase is a pronoun.
- appositive\_feature(): This feature checks if `j` is in apposition of `i`.

在创建所有这些特性以从数据集中提取结果之后,我不知道如何选择根节点,也不知道如何使用sci学习决策树算法,因为数据不是结构化的,而且是绝对的。我读过的一篇论文提到了熵和信息增益,但是这两个属性的所有例子都是基于结构化数据集的。

EN

回答 2

Stack Overflow用户

发布于 2018-10-30 13:35:30

如果您有不同类别的不同特性,并且不想自己花时间对它们进行编码,我建议您使用CatBoost框架,它也比树的标准scikit实现更快。

检查这个卡格尔的实现!

票数 1
EN

Stack Overflow用户

发布于 2018-10-30 13:26:27

使用一种热编码。

代码语言:javascript
运行
复制
df = pd.get_dummies(df, [categorical_columns_you_want_to_encode])

如果最后有太多的列,您可以预处理您的列以删除不常见的值,例如小于1%的值,以避免列数过多。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/53065283

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档