我试图使用R中的rpart包创建一个决策树,以达到我使用plotcp
函数的树的最佳深度。当我使用printcp
分析交叉验证的结果时,除其他细节外,我得到以下消息:
根节点错误: 3599.8/14399 = 0.25
我的课不平衡( 1-75%,2-25%).因此,rpart似乎正在做的是,使用默认的阈值0.5。而且,由于没有一个节点对于类C2有一个prob > 0.5,所以它们都被归类为C1。
难道我不可能指定概率阈值吗?例如,对于C2,如果prob > 0.35,将其归类为C2。
发布于 2016-08-01 11:36:22
您收到的信息是:
Root node error: 3599.8/14399 = 0.25
不是一个错误。它是“printcp”标准输出的一部分,只是简单地显示了数据中每个观测值的平均误差。你大概有14,399个观测结果。如果您正在进行分类,那么所使用的错误度量可能是GINI。您的树可能做得很好-我们看不到,因为您还没有张贴您的CP表的其余部分。
同样,如果您使用的是分类(例如,您的公式中的主题是一个因素,或者您使用了书面方法= 'class'),那么属于每个节点的观测数据的分类是根据大多数。事实上,如果所有的叶节点都在同一个类中占大多数,那么发送到树下的所有东西都将按照这个类进行分类。你可以用体重来鼓励不同的行为。
https://stackoverflow.com/questions/32654716
复制相似问题