首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Scikit Learn - Random Forest:如何处理连续特征?

Scikit Learn - Random Forest:如何处理连续特征?
EN

Stack Overflow用户
提问于 2015-09-20 01:19:30
回答 2查看 8.3K关注 0票数 2

随机森林接受数字数据。通常,具有文本数据的特征被转换为数字类别,并且连续的数字数据被原样馈送,而不进行离散化。它会在内部对连续的数字数据进行绑定吗?或者将每个数据视为离散级别。

例如:我想向RF提供一个数据集(当然是在对文本特征进行分类之后)。RF如何处理连续数据?在进料之前离散化连续数据(在本例中为经度和纬度)是否可取?或者这样做会丢失信息?

EN

回答 2

Stack Overflow用户

发布于 2015-09-21 00:36:23

据我所知,您问的是如何为连续功能选择阈值。绑定发生在您的类被更改的值处。例如,考虑以下以x为要素、以y为类变量的一维数据集

代码语言:javascript
运行
复制
x = [ 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
y = [ 1, 1, 0, 0, 0, 0, 0, 1, 1, 1]

将考虑两种可能的候选削减:(i)在2到3之间(实际上看起来像x<2.5)和(ii)在7到8之间(作为x<7.5)。在这两个候选者中,将选择第二个,因为它提供了更好的分离。在这些步骤中,算法进入下一步。

因此,不建议您自己对数据进行离散化。用上面的数据来思考这一点。例如,如果您将数据离散化在5个[1, 2 | 3, 4 | 5, 6 | 7, 8 | 9, 10]中,您将错过最佳拆分(因为7和8将在一个bin中)。

票数 3
EN

Stack Overflow用户

发布于 2015-09-20 05:19:04

您正在询问有关DecisionTrees的信息。因为RandomForest是集成模型,而且它本身对数据一无所知,所以它完全依赖于基础估计器(在本例中是DecisionTrees)的决策,并对它们进行聚合。

那么,DecisionTree是如何处理连续特性的:查看this官方文档页面。DecisionTreeClassifier是在连续数据集(费舍尔虹膜)上拟合的,如果你看一下树的图片-它在每个节点上对这个节点上的一些选定特征有阈值。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/32671105

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档