信息

一、如何度量信息

信息量是对信息的度量,香农不仅对信息作了定性描述,还进行了定量分析。 信源发出的信息常常是随机的,具有不确定性。如果信源中某一消息的不确定性越大,一旦发生,并为收信者接到,消除的不确定性就越大,获得的信息也就越大。同时事件发生的不确定性与事件发生的概率有关,概率越小,不确定性就越大。

二、 离散集信息量的性质

某事件X发生所提供的信息量I(x),应该是该事件发生的先验概率p(x)的函数:

且应满足一下四点:

1、 I(x)应该是事件概率p(x)的单调递减函数; 2、信息量应该具有可加性:对于两个独立事件,其信息量应等于各自信息量之和; 3、当p(x)=1时,I(x)=0:表示确定事件发生得不到任何信息; 4、当p(x)=0时,I(x)=∞:表示不可能发生的事件一旦发生,信息量将无穷大。

综合上诉条件,在概率上已经严格证明了

其中p(x)为消息的先验概率

信息量单位:若这里对数底数取2,则单位为bit,由于在计算机上是二进制,我们一般都采用bit,

例1、信源消息X={0,1,2}的概率模型如下:

X_i

0

1

2

p(x_i)

1/3

1/6

1/2

则该信源各消息的信息量分别为:

X_i

0

1

2

p(x_i)

1/3

1/6

1/2

I(x)

log3

log6

log2

单位比特

信息量代表两种含义

  • 1、事件X发生以前,I(x)表示事件X发生的不确定性;
  • 2、当事件X发生以后,I(x)表示事件X所提供的信息量(在无噪声的情况下)

例2、假设一根电线上串联8个灯泡X1、X2...X8,这8个灯泡损坏的可能性等概率的,假设只有一个灯泡损坏,用万能表去测量,获得足够的信息量,才能获知和确定哪个灯泡X_i损坏。下面就来看我们最少需要获得多少信息量才能判断出。

解:第一次测试从中间测量,这样八个灯泡分成两部分,并可以判断出在哪一边,这样挑出坏灯泡概率1/4

第二次在剩下4个灯泡中间测量获得的信息量:

第三次在两个灯泡中间测量获得的信息量:

信息熵

信息熵---是整个系统的不确定性的统计特性即整个信源信息量的统计平均值

例3 有两个信源X和Y:

X_i

0

1

p(x_i)

0.5

0.5

y_i

0

1

p(y_i)

0.99

0.01

在现实中,能找到很多类似的模型,我们想知道这两个信源本质的区别在哪里?

平均信息量----熵的定义

设X是一个集合(即信息系统如信源或信道),其概率模型为{X_i,P(X_i)},则定义系统X的平均信息量-----熵为:

熵的单位是比特/符号。H(X)就是唯一确定X中任一事件的平均信息量。反应了一个系统平均复杂度。

熵的几条性质

(1)对称性:熵只和分布有关,不关心某一具体事件对应哪个概率 (2)非负性:H(X)>=0 (3)确定性:若离散事件是确定事件,则H(X)=0 (4)极值性----最大离散熵定理:设|X|为信源消息的个数,

计算例3两个信源X和Y的熵

信源X熵明显要远远大于信源Y的熵,信源X发出信息不确定性很大,二信源Y不确定信很小

条件信息量

在已知事件yi的条件下,事件xi发的概率为条件概率p(xi|yi),那么条件信息量定义为

联合信息量

事件xi,yi同时发生的概率是p(xiyi),那么联合信息量为

联合熵

条件熵

................

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏每日一篇技术文章

学习音视频解码你应该知道的东西

查看详细的视频编码介绍请访问视频编码 我们重点研究一下 H.26X 系列 特点:侧重网络传输 包括:H.261、H.262、H.263、H.263+、H....

30820
来自专栏人工智能头条

手把手教你实战汉字书法识别

1.2K40
来自专栏自学笔记

Label Propagation

Label propagation是基于标传播的一种社区划分算法。Label Propagation Algorithm简称LPA算法,也可以是说是一种划分小团...

28140
来自专栏机器之心

专栏 | Detectron精读系列之一:学习率的调节和踩坑

517120
来自专栏大数据挖掘DT机器学习

车辆目标检测

81440
来自专栏新智元

旧照片着色修复神器!自注意力GAN效果惊艳

图像着色、图像增强、恢复旧图像等是计算机视觉领域的热点问题,不过,用一个模型很好地实现多个任务的研究不多。

12210
来自专栏CDA数据分析师

谷歌教你学 AI-第五讲模型可视化

Google Cloud发布了名为"AI Adventures"的系列视频,用简单易懂的语言让初学者了解机器学习的方方面面。今天让我们来看到第五讲模型可视化。 ...

26170
来自专栏新智元

【AI可能真的要代替插画师了】复旦同济用cGAN生成动画人物

【新智元导读】复旦大学、同济、CMU等的研究者使用cGAN生成各种属性的二次元人物头像,效果非常令人印象深刻。生成的图片质量非常之高,本文作者认为这项工作如果加...

49550
来自专栏AI研习社

手把手教你用Python 和 Scikit-learn 实现垃圾邮件过滤

文本挖掘(Text Mining,从文字中获取信息)是一个比较宽泛的概念,这一技术在如今每天都有海量文本数据生成的时代越来越受到关注。目前,在机器学习模型的帮助...

40880
来自专栏目标检测和深度学习

资源 | DLL:一个炙手可热的快速深度神经网络库

8710

扫码关注云+社区

领取腾讯云代金券