前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[科普]信息熵理论

[科普]信息熵理论

作者头像
KAAAsS
发布2022-01-13 13:54:16
3750
发布2022-01-13 13:54:16
举报
文章被收录于专栏:KAAAsS's Blog

声明:博主水平有限,错误在所难免,还请各位指正。本文目标读者:对信息论了解不多,有一定数学基础(中学)。

如何度量信息的价值?换言之,信息量改如何去描述呢?举个例子,新华字典的信息量该怎么描述呢?对于信息这样一个可以说“难以捉摸”的概念,做到量化似乎是不可能的。直到香农提出了信息熵理论,我们才真真正正的做到使用数学工具描述信息量。

首先,香农假设信息量和这个信息出现的概率有关。其实不难理解,因为信息就是通过认识得到的。而出现概率越高的信息,我们就更容易认识、获得到,所以这些信息能提供的信息量实际上会更少(注意并不是信息的重要程度),因为它很容易获得。

很好,现在我们有一个概率,我们设它为P(X)。我们需要对他处理来获得我们需要的熵,我们设它为H(X)。那我们怎么在P(X)和H(X)之间构建一座桥梁呢?答案很简单——log函数。打个比方,我们扔一个硬币,硬币正面朝上的概率是1/2,而扔2枚都朝上是1/4,3枚1/8……不难发现,这是呈指数关系的!所以我们采取了log函数来刻画熵。这么说可能有点难理解,那我们从数学的角度来推。根据信息熵的定义,我们一定能得到以下推论:

  1. H(X)∝1/P(X)。这很好理解,因为事件发生概率越大,其信息量就越小。
  2. 若P(X)=1,则H(X)=0。必然事件并不能提供任何信息量,因为他是必然发生的。
  3. 若P(X)=0,则H(X)->∞。很好理解,如果一个不可能事件发生了,他能提供的信息量一定非常大且趋近于无穷。
  4. 设X、Y两事件独立,H(X,Y)=H(X)+H(Y),P(X,Y)=P(X)P(Y)。对于前者,很好理解不相干的事件提供的信息量肯定是可加的。对于后者,是概率论公式,可以理解成不相干事件同时发生的概率就是两事件独立发生概率的乘积(比如扔两个硬币,每个硬币朝上的概率都是相对独立的,所以都朝上的概率就是1/2*1/2=1/4)。

在数学上,我们可以简单的证明,H(X)=-logP(X)是满足上述条件的充要条件。考虑到每个事件的概率不一定相等,所以对于H(X)=-∑(log(P(x)),x∈X)。如果你能理解到此为止的内容,那么恭喜,你已经成功的了解了信息熵!其他的诸如条件熵等等本质上都是对信息熵的推论。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2016/11 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档