熵与生命概率

bear_fish

发布于 2018-09-19 12:47:36

9810

发布于 2018-09-19 12:47:36

文章被收录于专栏：用户2442861的专栏用户2442861的专栏

https://yjango.gitbooks.io/superorganism/content/shang_yu_sheng_ming.html

熵与生命

熵和概率十分相近，但又不同。概率是真实反映变化到某状态的确信度。而熵反映的是从某时刻到另一时刻的状态有多难以确定。阻碍生命的不是概率，而是熵。

熵

熵是用来衡量我们对事物在跨时间后能产生不同状态的混乱度。

一、如何理解熵（随机，不确定性，不可预测性，信息量）只增不减？

只增不减意味着当时间向未来发展时，事物可能达到的状态种类会越来越多。

情景：若把下图的碎片看成可独立运动的粒子。时间由左侧的状态起进入下一刻状态时就有无数种运动的组合。而最初“有序”状态仅是其中的一种可能。使得我们见到事物自发性从无序变成有序的情况微乎其微。

熵也可以被理解成信息量。信息越有规律，熵越低；信息越随机，熵越大。

情景：假设要发送一串信息[00000000000000000000],虽然是20位，但有规律，并不需要发送所有内容；而[10001010111001011001]则不同，同样是20位，由于规律杂乱。基本要把所有内容都发送，接受者才能获得该信息。当事物变得无序（disorder）时，信息量（熵）就增加。

二、那么信息量（熵）又是如何衡量的？熵与概率之间的关系又是什么？

情景：如果上图的一个碎片有

的概率，从左侧的状态转变到右侧的某一个状态。当此概率越接近0或1时，说明它的结果就会越确定。和其他碎片组合的情况就越少。下图表示一个碎片是否到某个位置的概率与熵之间的关系。计算方式为

。可以看到当概率为0.5时，熵最大。

越确定(deterministic)的事件的熵越低，越随机(probabilistic)的事件的熵越高。

香农熵(Shannon entropy)可表达为：

，其中

是熵，

是离散随机变量，

指

的概率。

的基底可以变化。一般会用自然底数

，单位是nat。用2为底数时，单位是bit。

实例：

{

},其中1,2,3分别表示成为红色，黄色，蓝色的概率。概率分别为{

}。这时

三、为什么说生命活着就在减熵？

生命要在这个随机变化的世界中生存，它就需要知道如何根据环境变化做出相应的行动来避免毁灭。把不确定的环境转换成确定的行动。会将无序的事物重新整理到有序的状态。生物仅仅活着就需要减熵，否则就会被不确定性会消灭。熵增意味着信息量越来越巨大，生物必须能够压缩这些不确定的信息并记住信息是如何被压缩的。

压缩信息的方法就是知识。

实例：病毒会利用宿主的细胞系统进行自我复制将微粒重组为有序的状态。
实例：工蜂用自身的蜡腺所分泌的蜂蜡修筑蜂巢

此种知识是仅当环境发生时才会采取对应行动，并不会改变太多环境。但有第二种知识。像人类这样的动物同时还可以学习改变环境的原因以此来预测未来。

实例：由于动物会运动，环境会根据它的运动和它对环境的影响造成改变。动物需要可以利用记忆力从过去推测未来事件的能力。
实例：物理学家穷其一生寻找可以解释一切的公式(像

, 弦理论)。这种能力存在于拥有时间观念的生命之中。人类更是其中的王者。

但这并不意味着智能越多越好。取决于智能如何被使用。如人类可以用第二种知识去改变环境，但会带来不确定性。于此同时我们又需要更多的智能去对抗不确定性，并改变了更多的环境。科技从未使我们的生活变得更好，它仅使生活变得复杂。是环境的复杂化造成了很多学生不得不学习更抽象的知识，不得不获得更高的学历来提高自己的生存能力。当平衡被打破时？我们将会失去部分智能，新的平衡将会尝试着建立。

许多已灭绝的生物曾经拥有他们与不确定性的平衡，直到人类将他们的环境改变。

通过线性代数，我们知道了该如何描述事物状态及其变化。遗憾的是，对一个微小的生物而言，世界并非确定性（deterministic）的，由于信息量的限制，很多事物是无法确定其变化后会到达哪种状态。然而为了更好的生存，预测未来状态以决定下一刻的行为至关重要。而概率给我们的决策提供了依据。推荐读物《Introduction to Probability》

一、什么是概率？

在量子力学中，事物的状态只会在观察后显现。未观察的事物处于叠加态（superposition），所以可认为：

概率是用来衡量我们对事物在跨时间后不同状态的确信度。

情景：如何考虑转盘在未来停止后指针指向各个数字的可能性？为方便研究，需要总结出在任何情况都普遍适用的属性，并给予它们固定的名字。 1,2,3是可能被指到的三个结果（outcome）。在这里，这三个结果组成的集合也同时是样本空间（sample space），即无论事态如何发展，结果都不会出现在该集合之外。样本空间的子集，如{1,2}叫做一个事件（event），表示指针指到1或2的情况。满足任何一个情况都算作该事件发生了（occurred）。所有事件发生的可能性都用值域为[0,1]间的实数表示，1表示必然发生，0表示不可能发生。{1},{2,3}两个不相交的事件的概率和为1。[0,1]间的实数是概率得出的值，但并非概率的全部。概率是一个函数。

概率：概率是将样本空间内的子集投向概率空间的函数。概率

将事件

作为输入，并输出[0,1]之间的实数表示其发生的可能性。该函数需要满足两个条件： 1.

，空集的概率为0，全集的概率为1。 2.

，不相交事件之间的并集事件的概率等于各个事件概率之和。结果：可能发生的情况。样本空间：所有可能发生的结果所组成的集合。事件：样本空间的子集。当实际发生的结果

时，表示

事件发生。

二、朴素概率的计算以及和普遍概率的区别是什么？

人们在计算概率时常常犯的错误就是不假思索的假定所有结果所发生的可能性都相同。并用希望发生结果的个数比上所有可能发生结果的个数。

朴素概率：

，

和

表示集合中元素的个数。

实例：在上图原盘问题中，如果使用朴素概率来计算指针停止时指向2的概率，就会得到

的概率。但很明显，指向3的结果就占有原盘一半的空间，指向3的概率更大。使得各个结果发生的可能性并不相同。不可以使用朴素概率算法。从图中可以看出答案是

。

样本空间好比是总价为1的一筐苹果，一个事件就是一堆苹果，概率是将这堆苹果转换成实际价钱的函数。但苹果有大有小，只有当所有苹果都一模一样时，这堆苹果的价钱才是苹果数/总个数。空集，即一个苹果都没有的话，价格为0。整框苹果的话，价格自然为1。把整框苹果分成几堆（事件之间不相交），价格的总和为1。

条件概率

随着时间的推移，事物的变化也会对原始样本空间产生影响。

三、条件概率又是什么？

条件概率实际是事态的发展对样本空间进行调整后的概率情况。

实例：从一副洗好的扑克里，不放回的依次抽两张卡片。事件

表示第一张卡片是心，事件

表示第二张卡片是红色。求事件

发生的条件下，事件

发生的概率

。以及事件

发生的条件下，事件

发生的概率

。卡片都是均匀形状，可用朴素概率计算。最初的样本空间是

种。事件

发生后，样本空间被调整，所有第二张不是红色的结果都会从样本空间内去掉，变成

种（可认为第二张先抓，顺序不影响组合结果）。其中第一张是心，且第二张是红色的结果有

种。所以

的概率为

。事件

发生后，所有第一张不是心的结果都会从样本空间内去掉，变成

种。其中第一张是心，且第二张是红色的结果有

种。所以

的概率为

。

和

二者的条件对原始样本空间的调整不同，所以并不相等。同时“|”右边的事件并不意味着先发生，也并不意味着是左边事件的起因。

实例：先后投两次硬币。原始样本空间是{正正，反反，正反，反正}。已知事件

是第一次投得正面，事件

是第二次投得正面。

更新后的样本空间为{正正，正反}。但第二次投得正面的概率仍然是1/2。事件

和事件

彼此没有影响，叫做两个事件独立。

条件概率：

表示

事件条件下，

发生的条件概率。

叫做先验概率（prior probability），即事态未更新时，

事件的概率。

也叫做后验概率（posterior probability），即事态更新后，

事件的概率。

是

发生后

的事件集合，而除以

是在该基础上，将样本空间的总概率重新调整为1。当事件

与

为独立事件时，其中一个事件的发生并不会对另一个事件的样本空间产生影响。即

，

。

贝叶斯公式

人们经常将

和

搞混，把二者搞混的现象叫做检察官谬误（prosecutor's fallacy）。

四、

和

两者之间的关系是什么？

实例：，某机器对在所有人口中得病率为1%的癌症识别率为95%（有病的人被测出患病的概率和没病的人被测出健康的概率）。一个被测得有病的人真实患癌症的概率是多少？得出答案是95%的人就是搞混了

和

。正确答案约等于16%。拿10000个人来思考。

真正的样本空间是由测得有病的癌症患者和测得有病的正常人组成，所以答案是

%。

由条件概率，我们可以通过变形得出著名的贝叶斯公式和全概率公式。

贝叶斯公式（Bayes' theorem）：

全概率公式（Law of total probability）：

，其中

是样本空间

的分割(partition)，即彼此不相交，并且组成的并集是样本空间。如下图：

用这两个公式，我们重新计算上面的癌症问题：

实例：
是人口中患癌症的概率，为1%，
是测得有病的概率。
就是测得有病时，患癌症的概率。
是有患癌症时，测得有病的概率，为95%。
就是没病时却测得有癌症的概率，为5%。
- 想知道的是，当被测得有病时，真正患癌症的概率
是多少。
- 由贝叶斯公式可以得到：
- 由全概率公式可以得到：
- 全部代入就得到：
%

这两个公式在机器学习中非常重要。贝叶斯公式告诉了我们

和

两者之间的关系。很多时候，我们难以得出其中一个的时候，可以改求另一个。

实例：语音识别中，听到某串声音的条件

下，该声音是某段语音

的条件概率最大的

为识别结果。然而

并不好求。所以改求

。若所有观察概率

被视为相同，则不需要考虑。剩下的

叫做声学模型，描述该段语音会发出什么样的声音。而P(s)叫做语言模型，包含着语法规则信息。

而全概率公式又是连接条件概率与非条件概率的桥梁。

全概率公式可以将非条件概率，分成若干块条件概率来计算。

实例：三门问题。三扇门中有一扇门后是汽车，其余是羊。参赛者会先被要求选择一扇门。这时主持人会打开后面是羊的一扇门，并给参赛者换到另一扇门的机会。问题是参赛者该不该换？应该换门。换门后获得汽车的概率为2/3，不换门的概率为1/3.
- 用全概率公式来思考该问题就可以将问题拆分成若干个相对简单的条件概率。
获得汽车的概率可以用拆分成选择各个门可得汽车的概率。
为车在第一扇门的概率。
- 如果不换门，得车的概率就是
，即1/3.
- 若换门。当车在第一扇门后时，
由于换门的选择而变成了0。
- 但当车在第二或第三扇门后时，由于主持人去掉了一扇后面为羊的门，换门的选择会100%得到车。
- 所以，