首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

趣说信息熵(三)

话说,上两篇我们介绍了信息熵和它的两个性质:(1)信息熵越大,信息量越多;(2)信息熵越小,数据纯度越高。忘记的童鞋可以回翻看看哦~

那么捏,本篇我们将利用信息熵的第二个性质来看看它在决策树里是怎么使用的。

我们还是拿红豆和绿豆举例子。假如我们现在有一些红、绿豆,测量了它们的直径,是酱紫的:

现在的问题是,如果仅仅想通过豆子的直径来区分哪些是红豆哪些是绿豆,一个合理的划分是怎样的?

我想,你肯定会选择(b)划分。可以看出(b)划分给人的直观感觉是左右两边的豆子更纯~~

咦,更纯?这个词是不是很耳熟?是滴,我们很容易就想到可以利用信息熵了,不过捏,这里我们不再单纯地使用信息熵,而是使用信息熵的变化量——信息增益(information gain)

信息增益=原先的信息熵-划分后的信息熵的加权平均值

具体到我们的例子里来,我们来定量地计算一下两组划分的信息增益分别是多少

可以看出,(b)划分的信息增益更大,这也是我们选择(b)划分的原因:信息增益越大,越能更好地区分两种数据。

实际上,决策树算法确定划分的策略就是如此。不过这里我们说的决策树是ID3决策树——一种经典的决策树。根据划分方法的不同,常用的决策树还有C4.5和CART两种,前者是利用信息增益率作为划分,后者则是利用基尼值作为划分。划分方法不同,但总体思路大同小异,即都是让划分后的数据尽可能地变纯。

关于信息熵在决策树中的应用,今天就先介绍到这里,精彩内容持续更新,欢迎关注哦~

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180927G1G2X700?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券