前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >信息熵

信息熵

作者头像
alexqdjay
发布2018-05-11 14:00:56
1K0
发布2018-05-11 14:00:56
举报
文章被收录于专栏:alexqdjayalexqdjay

定义

在实际的情况中,每种可能情况出现的概率并不是相同的,所以熵(entropy)就用来衡量整个系统的平均信息量,二话不说上公式:

Pi 表示概率

Hs 计算结果衡量信息量大小,或者说不确定性(纯度),越大说明信息量越大,不确定性越大。

举例

中国队与巴西队进行比赛,谁获胜?假如中国队获胜的概率为0%,巴西获胜是100%,那么:

H = -0.0*log0.0 - 1.0*log1.0 = 0 (本文log基数都为2)

表明这种结果信息量为零,不确定性为零(人们一般都不关心比赛结果)

但是,如果巴西队跟德国队进行比赛呢?假如巴西队和德国队分别获胜概率为50%(虽然实际上有过惨败),那么:

H = -0.5*log0.5 - 0.5*log0.5 = 1

说明信息量很大,不确定性很大,大家也都非常关心这场世纪之战。

再一例

吴京博士在他的书《数学之美》中也举过一个例子:A要询问B世界杯谁得了冠军,B没有直接回答而要A进行猜测,每猜一次需要付给B一元,请问最少需要多少钱A才能知道谁是冠军?

这是一道很好的脑筋急转弯题。使用上面的公式你可能已经算出是5元,询问过程很像二分查找,先把32队分两堆,确定再那一堆,然后再在目标堆进行划分一直到找到目标队,而整个过程需要分5次(2^5=32)。

信息量

以中文和英文举例,英文字母有26个,每一个几乎概率一样,这样一个字母的信息量为4.7(-1/26*log1/26),常用汉字2500个,一个汉字信息量为11.3(-1/2500*log1/2500),汉字包含的信息量要大于英文,所以在印刷字体大小差不读时,中文译本要比原文薄,可以去统计下应该差不多薄一半。

分类

信息熵也被应用一些分类算法中,衡量预测函数的结果是否不确定性很大,熵越小说明分类结果越准确。所以在参数拟合阶段会选择参数尽量使得熵最小。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 定义
  • 举例
  • 再一例
  • 信息量
  • 分类
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档