香农熵

卡尔曼和玻尔兹曼谁曼

发布于 2023-12-01 08:53:33

8180

文章被收录于专栏：给永远比拿愉快给永远比拿愉快

偶然看到一篇介绍香农熵的文章，写得浅显易懂，翻译过来，与大家一起学习！

原文：Shannon Entropy, Information Gain, and Picking Balls from Buckets

参考视频：Information Entropy

在1948年，Glaude Shannon发表了文章《A Mathematical Theory of Communication》首次提出了革命性的概念“信息熵”。

物理中的熵

熵也是物理中的一个概念。简单来说，如果一个系统中的粒子在运动过程中有很多可能的位置，那么这个系统具有比较高的熵值，反之，如果系统中的粒子处于静止状态（粒子的位置相对固定），则系统具有很低的熵值。

例如，水有三种状态：固液气，具有不同的熵值。冰中的分子位置固定，是一个稳定的状态，所以冰具有最低的熵值。水中的分子相对可以进行一些移动，所以水具有中间大小的熵值。水蒸气中的分子几乎可以移动到任何地方，所以水蒸气具有最大的熵值。

但是这个和信息论有什么关系呢？答案需要通过研究“知识”和“概率”来说明。

熵和知识

为了使用概率来介绍熵的概念，这篇文章中我们将用这样一个例子加以说明：有三个桶，每个桶里面有四个小球，每个桶里面的小球的颜色分布如下：

桶1：4个红色小球
桶2：三个红色小球，1个蓝色小球
桶3：两个红色小球，2个蓝色小球

我们将通过从桶里面取出小球的颜色来判断我们可以获得多少知识。结论如下：

在第一个桶中，我们可以确定取出来的所有小球颜色都是红色的；
在第二个桶中，取出红色小球的概率是75%，取出蓝色小球的概率是25%；
在第三个桶中，取出红色小球的概率是50%，取出蓝色小球的概率是50%.

所以，我们可以说桶1给出了关于小球颜色最多的知识（因为我们确定地知道所有小球都是红色），桶2给出了部分知识，而桶3给出了最少量的知识。熵和知识类似，但是却刚好相反。所以，桶1具有最小的熵，桶2次之，桶3具有最高的熵。

我们需要一个公式定量地表示熵，为了找到这样一个公式，我们需要使用概率。

熵和概率

现在的问题是如何创造出一个公式对于桶1中的4个红球具有较低的值，对于桶2中的三个红球1个蓝球具有中等的值，对于桶3中的2个红球和2个蓝球具有较高的值？首先，我们需要记住熵的定义：一个系统中的粒子具有很大的可重新排列的可能性，系统具有较高的熵；反之，具有较低的熵。所以，我们首先计算桶中的球可以重新排列的可能情况。对于桶1，只有一种可能性；对于桶2，有两种可能性；对于桶3，有六种可能。这个可以通过二项式系数计算得到（1，4，6，1）。

对于小球排列情况的计算并不是熵公式的一部分，但是我们可以发现，有越多排列的可能性，则其熵越大；有越少的排列的可能性，则其熵越小。在下一节，我们将会构造熵的计算公式。基本思想通过考虑以某种确定的方式从每个桶中取出特定颜色排列的小球的概率。

熵和有趣的小球实验

现在我们正式开始通过下面的游戏发现用于计算熵的公式。可以提前剧透一下：通过游戏获胜的概率，我们可以得到熵的定义公式。

在这个游戏中，我们给定三个桶。游戏规则如下：

首先我们选择一个桶；
以某种颜色排列取出该桶里面的小球，然后将小球放回；
每次从该桶中取出一个小球并记录颜色，并放回；
四次以后如果记录的颜色和2中的颜色排列一致，则我们获胜，可赢得1,000,000人民币，否则游戏失败。

这个听起来可能有些负责，但是实际很简单。举个例子，比如我们选择桶2，里面有三个红球，一个蓝球。我们从桶里面以某种特定的排列取出小球，比如说（红，红，红，蓝）这个颜色排列。然后我们开始一次一次从桶里面取一个小球，如果四次以后，我们取出来的颜色排列也是（红，红，红，蓝）这个组合，我们获胜。那么我们获胜的概率是多少呢？

第一次取出红球的概率是3/4，即0.75；
第二次取出红球的概率是3/4（我们每次都是有放回的取出）；
第三次取出红球的概率仍然是3/4；
第四次取出蓝球的概率是1/4，即0.25。

这四次操作都是独立事件，独立事件同时发生的概率使用乘法公式即：

(3/4) * (3/4) * (3/4) * (1/4) = 27/256

，即0.105。这是一个很小的概率。下面的图给出了我们使用每个桶想要获胜的概率。

为了方面说明，下面的图给出了使用每个桶获胜的概率。对于桶1，获胜的概率为1；对于桶2，概率为0.105；对于桶3，概率为0.0625.

三个桶获胜的概率总结如下表：

这样我们就可以定量评价使用三个桶获胜的情况。游戏获胜的概率为：

桶1为1
桶2为0.105
桶3为0.0625

为了得到熵的计算公式，我们需要一个大小相反的度量，对于桶1有最小值，对于桶2有一个中间的值，对于桶3有最大值。这个很简单，我们可以使用对数进行处理得到我们想要的结果。

将连乘转变为连加

下面的处理使用了很简单的数学技巧，特别是在机器学习中使用的比较广泛。连乘一般都不会得到一个比较好的结果。这里我们有四个数字，每个都不是特别差，但是如果我们有一百万个数据点，这一百万个概率的连乘会得到一个怎么样的结果？可想而知是特别特别地小。一般我们要尽可能地避免连乘。什么比连乘好呢？当然是连加。我们如何将连乘转变为连加呢？对，使用对数函数，因为下面的恒等式特别有用：

\log(ab) = \log(a) + \log(b)

我们有四个概率的连乘，使用对数以后，可以变为四个数字的连加。对于桶2（三个红球，一个蓝球的排列），我们有如下的计算过程：

0.75 * 0.75 * 0.75 * 0.25 = 0.10546875

通过使用对数变换（为了，使得结果是正数，这里在对数前面添加了一个负号），我们有：

-\log_2(0.75) - \log_2(0.75) - \log_2(0.75) - \log_2(0.25) = 3.245

现在，只剩下最后一步了。为了对结果进行规范化，我们对该结果取平均。这就是我们要找的熵的静思园公式了！对于桶2，其熵为0.811.

\frac{1}{4}(-\log_2(0.75) - \log_2(0.75) - \log_2(0.75) - \log_2(0.25)) = 0.811

如果我们计算桶1的熵，可以得到：

\frac{1}{4}(-\log_2(1) - \log_2(1) - \log_2(1) - \log_2(1)) = 0

桶3的熵为：

\frac{1}{4}(-\log_2(0.5) - \log_2(0.5) - \log_2(0.5) - \log_2(0.5)) = 1

至此，我们已经找到了熵的定义公式：对概率对对数的负值。注意到桶1具有最低的熵，桶3具有最高的熵，桶2居于中间。总结如下：

对于更通用的公式，我们可以总结如下：假设我们的桶里有

个红球和

个蓝球，则：

Entropy = \frac{-m}{m+n}\log_2(\frac{m}{m+n}) + \frac{-n}{m+n}\log_2(\frac{n}{m+n})

多类别熵

目前为止我们处理了连个类别的熵（红色和蓝色）。为了使得熵和信息论关联起来，我们有必要看一些多个类别的情况。这里为了是情况更加清晰一些，我们使用字母来进行说明。假设我们有三个桶，每个桶里面有8个字母。桶1中的字母是AAAAAAAA，桶2中的字母是AAAABBCD，桶3中的字母是AABBCCDD。我们可以很直观地感受到桶1中的熵最小，但是桶2和桶3的却并不是很明显。我们下面通过计算知道桶3具有最高的熵值，桶2熵值居中。