信息论 - 基础概念

为为为什么

发布于 2022-08-05 15:08:09

5060

发布于 2022-08-05 15:08:09

文章被收录于专栏：又见苍岚又见苍岚

信息论是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。本文介绍基本概念。

信息

信息是用来消除事情的不确定性的，不确定性的减少量等于**信息的信息量。*
信息论背后的原理是：从不太可能发生的事件中能学到更多的有用信息。
- 发生可能性较大的事件包含较少的信息。
- 发生可能性较小的事件包含较多的信息。
- 独立事件包含额外的信息。

熵

对于事件 X=x , 定义自信息（self-information）为：

I(x)=-\log P(x)

自信息仅仅处理单个输出，但是如果计算自信息的期望，它就是嫡:

记作 H§
熵刻画了按照真实分布 P 来识别一个样本所需要的编码长度的期望（即平均编码长度）。如：含有4个字母 (A, B, C, D) 的样本集中，真实分布 P=\left(\frac{1}{2}, \frac{1}{2}, 0,0\right) , 则只需要1位编码即可识别样本。
证明已知：

P(X=i)=p_i

H(X)=\sum_{i=1}^{k} P_{i} \log P_{i}

\sum_{i=1}^{k} P_{i}=1

建立拉格朗日方程：

L=\sum_{i=1}^{k} P_{i} \log P_{i}+\lambda \sum_{i=1}^{k} P_{i}

解方程组：有：

\frac{\partial L}{\partial P_{i}}=\log P_{i}+1+\lambda=0

\log P_{i}=-1-\lambda

P_{i}=2^{-1-\lambda}

由于之间两两相等，且和为1 因此有：

P_i=\frac{1}{k}

即当所有可能性的概率相等时熵最大此时熵：

H(X) = \sum\nolimits_{i = 1}^{i = k} {\frac{1}{k}\log \frac{1}{k} = \log \frac{1}{k}}

条件熵

对于随机变量 Y 和 X , 条件嫡 H(Y \mid X) 表示：已知随机变量 X 的条件下，随机变量 Y 的不确定性。它定义为： X 给定条件下 Y 的条件概率分布的嫡对 X 的期望：

对于离散型随机变量，有.

H(Y \mid X)=\sum_{x} p(x) H(Y \mid X=x)=-\sum_{x} \sum_{y} p(x, y) \log p(y \mid x)

对于连续型随机变量，有:

H(Y \mid X)=\int p(x) H(Y \mid X=x) d x=-\iint p(x, y) \log p(y \mid x) d x d y

根据定义可以证明： H(X, Y)=H(Y \mid X)+H(X) 。即：描述 X 和 Y 所需要的信息是：描述 X 所需要的信息加上给定 X 条件下描述 Y 所需的额外信息。

参考资料

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2021年5月27日，如有侵权请联系 cloudcommunity@tencent.com 删除

serverless

https

网络安全

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

serverless

https

网络安全

登录后参与评论

0 条评论

热度