随机森林接受数字数据。通常,具有文本数据的特征被转换为数字类别,并且连续的数字数据被原样馈送,而不进行离散化。它会在内部对连续的数字数据进行绑定吗?或者将每个数据视为离散级别。
例如:我想向RF提供一个数据集(当然是在对文本特征进行分类之后)。RF如何处理连续数据?在进料之前离散化连续数据(在本例中为经度和纬度)是否可取?或者这样做会丢失信息?
发布于 2015-09-21 00:36:23
据我所知,您问的是如何为连续功能选择阈值。绑定发生在您的类被更改的值处。例如,考虑以下以x
为要素、以y
为类变量的一维数据集
x = [ 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
y = [ 1, 1, 0, 0, 0, 0, 0, 1, 1, 1]
将考虑两种可能的候选削减:(i)在2到3之间(实际上看起来像x<2.5)和(ii)在7到8之间(作为x<7.5)。在这两个候选者中,将选择第二个,因为它提供了更好的分离。在这些步骤中,算法进入下一步。
因此,不建议您自己对数据进行离散化。用上面的数据来思考这一点。例如,如果您将数据离散化在5个[1, 2 | 3, 4 | 5, 6 | 7, 8 | 9, 10]
中,您将错过最佳拆分(因为7和8将在一个bin中)。
发布于 2015-09-20 05:19:04
您正在询问有关DecisionTrees
的信息。因为RandomForest
是集成模型,而且它本身对数据一无所知,所以它完全依赖于基础估计器(在本例中是DecisionTrees
)的决策,并对它们进行聚合。
那么,DecisionTree
是如何处理连续特性的:查看this官方文档页面。DecisionTreeClassifier
是在连续数据集(费舍尔虹膜)上拟合的,如果你看一下树的图片-它在每个节点上对这个节点上的一些选定特征有阈值。
https://stackoverflow.com/questions/32671105
复制相似问题