首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

模型算法基础——决策树剪枝算法(二)

在上一篇模型算法基础——决策树剪枝算法(一)中,我们介绍了误差降低剪枝(REP),今天我们继续介绍另一种后剪枝算法——悲观错误剪枝(PessimisticError Pruning/PEP)

悲观错误剪枝也是根据剪枝前后的错误率来决定是否剪枝,和REP不同的是,PEP不需要使用验证样本,并且PEP是自上而下剪枝的。由于还是用生成决策树时相同的训练样本,那么对于每个节点,剪枝后错分率一定是会上升的,因此在计算错分率时需要加上一个经验性的惩罚因子1/2。假设T表示考虑是否剪枝的某节点,t表示该节点下的叶子节点,N(t)表示节点t覆盖的样本个数,e(t)表示节点t的错分样本个数,那么节点T的错分率:

也就是说,每一个样本有E(Tt)的概率分类正确,1- E(Tt)的概率分类错误。可以认为错分次数服从Bernoulli分布,其期望为:

标准差为:

如果对T进行剪枝,当T节点成为叶子节点后的错分率:

如果有

则认为该节点需要剪枝。

还是用REP中训练样本的栗子,我们考虑T4节点(假设母节点们都不需要剪枝):

由于6+2.05>7,因此根据PEP判断节点T4需要剪枝。

悲观错误剪枝的准确度较高,且不需要分离训练样本和验证样本,对样本量较少的情况比较有利。同时,每棵子树最多只需要访问一次,效率较高。但是由于方向是自上而下,可能会造成某些不必要的剪枝。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171222G04DSM00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券