前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >模型算法基础——决策树剪枝算法(二)

模型算法基础——决策树剪枝算法(二)

作者头像
企鹅号小编
发布2018-02-01 09:58:42
1.9K0
发布2018-02-01 09:58:42
举报
文章被收录于专栏:人工智能人工智能

在上一篇模型算法基础——决策树剪枝算法(一)中,我们介绍了误差降低剪枝(REP),今天我们继续介绍另一种后剪枝算法——悲观错误剪枝(PessimisticError Pruning/PEP)

悲观错误剪枝也是根据剪枝前后的错误率来决定是否剪枝,和REP不同的是,PEP不需要使用验证样本,并且PEP是自上而下剪枝的。由于还是用生成决策树时相同的训练样本,那么对于每个节点,剪枝后错分率一定是会上升的,因此在计算错分率时需要加上一个经验性的惩罚因子1/2。假设T表示考虑是否剪枝的某节点,t表示该节点下的叶子节点,N(t)表示节点t覆盖的样本个数,e(t)表示节点t的错分样本个数,那么节点T的错分率:

也就是说,每一个样本有E(Tt)的概率分类正确,1- E(Tt)的概率分类错误。可以认为错分次数服从Bernoulli分布,其期望为:

标准差为:

如果对T进行剪枝,当T节点成为叶子节点后的错分率:

如果有

则认为该节点需要剪枝。

还是用REP中训练样本的栗子,我们考虑T4节点(假设母节点们都不需要剪枝):

由于6+2.05>7,因此根据PEP判断节点T4需要剪枝。

悲观错误剪枝的准确度较高,且不需要分离训练样本和验证样本,对样本量较少的情况比较有利。同时,每棵子树最多只需要访问一次,效率较高。但是由于方向是自上而下,可能会造成某些不必要的剪枝。

本文来自企鹅号 - 全球大搜罗媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文来自企鹅号 - 全球大搜罗媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档