前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >熵 条件熵 信息增益

熵 条件熵 信息增益

作者头像
week
发布2018-12-13 16:20:27
1.1K0
发布2018-12-13 16:20:27
举报
文章被收录于专栏:用户画像用户画像

版权声明:本文为博主-姜兴琪原创文章,未经博主允许不得转载。

在信息论和条件概率中,熵是表示随机变量不确定性的度量,设X是一个取有限个值的离散随机变量,其概率分布为

                             P(X=xi)=pi ,i=1,2,....,n

则随机变量X的熵定义为

                             H(X) = -累加 pi log pi  

熵越大,随机变量的不确定性就越大,从定义可验证

                            0<=H(p)<=logn

当随机变量只取两个值,例如1,0时,即X的分布为

                             P(X=1)=p  P(X=0)=1-p  0<=p<=1

熵为

                            H(p)=-p log2 P - (1-p)log2(1-p)

当p=0或p=1时 H(p)=0,随机完全没有不确定性。当p=0.5时H(p)=1,熵取值最大,随机变量不确定性。当p=0.5时,H(p)=1,熵取值最大,随机变量不确定性最大。

设有随机变量(x,y),其联合概率分布为

                             P(X=xi,Y=yi)=pij ,i=1,2,...,n;j=1,2,...,m

条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵H(X|Y),定义为X给定条件下Y的条件概率分布的熵对X的数学期望

                                                              H(Y|X)=累加 pi H(Y|X=xi)

这里,pi=P(X=xi),i=1,2,...,n

当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到时,所对应的熵和条件熵分别称为经验熵和经验条件熵。此时,如果有0概率,令0log0=0

信息增益

信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。

特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即

                                                            g(D,A)=H(D)-H(D|A)

一般地,熵H(Y)与条件熵H(Y|X)之差称为互信息,决策树学习中的信息增益等价于训练数据集中类与特征的互信息。

决策树学习应用信息增益准则选择特征。给定训练数据集D和特征A,经验熵H(D)表示对数据集D进行分类的不确定性。而经验条件熵H(D)表示在特征A给定的条件下对数据集D进行分类的不确定性,那么他们的差,即信息增益,就表示由于特征A而使得对数据集D进行分类的不确定性减少的程度。显然,对于数据集D而言,信息增益依赖于特征,不同的特征往往具有不同的信息增益,信息增益大的特征具有更强的分类能力。

根据信息增益准则的特征选择方法是:对训练数据集(或子集)D,计算其每个特征的信息增益,并比较它们的大小,选择信息增益最大的特征。

总结:信息增益为 数据集D的经验熵H(D) 与特征A对数据集D的经验熵H(D|A) 之差

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018年11月15日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档