话说,上两篇我们介绍了信息熵和它的两个性质:(1)信息熵越大,信息量越多;(2)信息熵越小,数据纯度越高。忘记的童鞋可以回翻看看哦~
那么捏,本篇我们将利用信息熵的第二个性质来看看它在决策树里是怎么使用的。
我们还是拿红豆和绿豆举例子。假如我们现在有一些红、绿豆,测量了它们的直径,是酱紫的:
现在的问题是,如果仅仅想通过豆子的直径来区分哪些是红豆哪些是绿豆,一个合理的划分是怎样的?
我想,你肯定会选择(b)划分。可以看出(b)划分给人的直观感觉是左右两边的豆子更纯~~
咦,更纯?这个词是不是很耳熟?是滴,我们很容易就想到可以利用信息熵了,不过捏,这里我们不再单纯地使用信息熵,而是使用信息熵的变化量——信息增益(information gain)
信息增益=原先的信息熵-划分后的信息熵的加权平均值
具体到我们的例子里来,我们来定量地计算一下两组划分的信息增益分别是多少
可以看出,(b)划分的信息增益更大,这也是我们选择(b)划分的原因:信息增益越大,越能更好地区分两种数据。
实际上,决策树算法确定划分的策略就是如此。不过这里我们说的决策树是ID3决策树——一种经典的决策树。根据划分方法的不同,常用的决策树还有C4.5和CART两种,前者是利用信息增益率作为划分,后者则是利用基尼值作为划分。划分方法不同,但总体思路大同小异,即都是让划分后的数据尽可能地变纯。
关于信息熵在决策树中的应用,今天就先介绍到这里,精彩内容持续更新,欢迎关注哦~
领取专属 10元无门槛券
私享最新 技术干货