https://yjango.gitbooks.io/superorganism/content/shang_yu_sheng_ming.html
熵和概率十分相近,但又不同。概率是真实反映变化到某状态的确信度。而熵反映的是从某时刻到另一时刻的状态有多难以确定。阻碍生命的不是概率,而是熵。
熵是用来衡量我们对事物在跨时间后能产生不同状态的混乱度。
一、如何理解熵(随机,不确定性,不可预测性,信息量)只增不减?
只增不减意味着当时间向未来发展时,事物可能达到的状态种类会越来越多。
熵也可以被理解成信息量。信息越有规律,熵越低;信息越随机,熵越大。
二、那么信息量(熵)又是如何衡量的?熵与概率之间的关系又是什么?
的概率,从左侧的状态转变到右侧的某一个状态。当此概率越接近0或1时,说明它的结果就会越确定。和其他碎片组合的情况就越少。下图表示一个碎片是否到某个位置的概率与熵之间的关系。计算方式为
。可以看到当概率为0.5时,熵最大。
越确定(deterministic)的事件的熵越低,越随机(probabilistic)的事件的熵越高。
香农熵(Shannon entropy)可表达为:
,其中
是熵,
是离散随机变量,
指
的概率。
的基底可以变化。一般会用自然底数
,单位是nat。用2为底数时,单位是bit。
{
},其中1,2,3分别表示成为红色,黄色,蓝色的概率。概率分别为{
}。这时
三、 为什么说生命活着就在减熵?
生命要在这个随机变化的世界中生存,它就需要知道如何根据环境变化做出相应的行动来避免毁灭。把不确定的环境转换成确定的行动。会将无序的事物重新整理到有序的状态。生物仅仅活着就需要减熵,否则就会被不确定性会消灭。熵增意味着信息量越来越巨大,生物必须能够压缩这些不确定的信息并记住信息是如何被压缩的。
压缩信息的方法就是知识。
此种知识是仅当环境发生时才会采取对应行动,并不会改变太多环境。但有第二种知识。像人类这样的动物同时还可以学习改变环境的原因以此来预测未来。
, 弦理论)。这种能力存在于拥有时间观念的生命之中。人类更是其中的王者。
但这并不意味着智能越多越好。取决于智能如何被使用。如人类可以用第二种知识去改变环境,但会带来不确定性。于此同时我们又需要更多的智能去对抗不确定性,并改变了更多的环境。科技从未使我们的生活变得更好,它仅使生活变得复杂。是环境的复杂化造成了很多学生不得不学习更抽象的知识,不得不获得更高的学历来提高自己的生存能力。当平衡被打破时?我们将会失去部分智能,新的平衡将会尝试着建立。
许多已灭绝的生物曾经拥有他们与不确定性的平衡,直到人类将他们的环境改变。
通过线性代数,我们知道了该如何描述事物状态及其变化。遗憾的是,对一个微小的生物而言,世界并非确定性(deterministic)的,由于信息量的限制,很多事物是无法确定其变化后会到达哪种状态。然而为了更好的生存,预测未来状态以决定下一刻的行为至关重要。而概率给我们的决策提供了依据。推荐读物《Introduction to Probability》
一、什么是概率?
在量子力学中,事物的状态只会在观察后显现。未观察的事物处于叠加态(superposition),所以可认为:
概率是用来衡量我们对事物在跨时间后不同状态的确信度。
概率:概率是将样本空间内的子集投向概率空间的函数。 概率
将事件
作为输入,并输出[0,1]之间的实数表示其发生的可能性。该函数需要满足两个条件: 1.
, 空集的概率为0,全集的概率为1。 2.
, 不相交事件之间的并集事件的概率等于各个事件概率之和。 结果:可能发生的情况。 样本空间:所有可能发生的结果所组成的集合。 事件:样本空间的子集。 当实际发生的结果
时,表示
事件发生。
二、朴素概率的计算以及和普遍概率的区别是什么?
人们在计算概率时常常犯的错误就是不假思索的假定所有结果所发生的可能性都相同。并用希望发生结果的个数比上所有可能发生结果的个数。
朴素概率:
,
和
表示集合中元素的个数。
的概率。但很明显,指向3的结果就占有原盘一半的空间,指向3的概率更大。使得各个结果发生的可能性并不相同。不可以使用朴素概率算法。从图中可以看出答案是
。
样本空间好比是总价为1的一筐苹果,一个事件就是一堆苹果,概率是将这堆苹果转换成实际价钱的函数。但苹果有大有小,只有当所有苹果都一模一样时,这堆苹果的价钱才是 苹果数/总个数。空集,即一个苹果都没有的话,价格为0。整框苹果的话,价格自然为1。把整框苹果分成几堆(事件之间不相交),价格的总和为1。
随着时间的推移,事物的变化也会对原始样本空间产生影响。
三、条件概率又是什么?
条件概率实际是事态的发展对样本空间进行调整后的概率情况。
表示第一张卡片是心,事件
表示第二张卡片是红色。求事件
发生的条件下,事件
发生的概率
。以及事件
发生的条件下,事件
发生的概率
。 卡片都是均匀形状,可用朴素概率计算。最初的样本空间是
种。事件
发生后,样本空间被调整,所有第二张不是红色的结果都会从样本空间内去掉,变成
种(可认为第二张先抓,顺序不影响组合结果)。其中第一张是心,且第二张是红色的结果有
种。所以
的概率为
。 事件
发生后,所有第一张不是心的结果都会从样本空间内去掉,变成
种。其中第一张是心,且第二张是红色的结果有
种。所以
的概率为
。
和
二者的条件对原始样本空间的调整不同,所以并不相等。同时“|”右边的事件并不意味着先发生,也并不意味着是左边事件的起因。
是第一次投得正面,事件
是第二次投得正面。
更新后的样本空间为{正正,正反}。但第二次投得正面的概率仍然是1/2。事件
和事件
彼此没有影响,叫做两个事件独立。
条件概率:
表示
事件条件下,
发生的条件概率。
叫做先验概率(prior probability),即事态未更新时,
事件的概率。
也叫做后验概率(posterior probability),即事态更新后,
事件的概率。
是
发生后
的事件集合,而除以
是在该基础上,将样本空间的总概率重新调整为1。 当事件
与
为独立事件时,其中一个事件的发生并不会对另一个事件的样本空间产生影响。即
,
。
人们经常将
和
搞混,把二者搞混的现象叫做检察官谬误(prosecutor's fallacy)。
四、
和
两者之间的关系是什么?
和
。正确答案约等于16%。拿10000个人来思考。
真正的样本空间是由测得有病的癌症患者和测得有病的正常人组成,所以答案是
%。
由条件概率,我们可以通过变形得出著名的贝叶斯公式和全概率公式。
贝叶斯公式(Bayes' theorem):
全概率公式(Law of total probability):
, 其中
是样本空间
的分割(partition),即彼此不相交,并且组成的并集是样本空间。如下图:
用这两个公式,我们重新计算上面的癌症问题:
是人口中患癌症的概率,为1%,
是测得有病的概率。
就是测得有病时,患癌症的概率。
是有患癌症时,测得有病的概率,为95%。
就是没病时却测得有癌症的概率,为5%。
是多少。
%
这两个公式在机器学习中非常重要。贝叶斯公式告诉了我们
和
两者之间的关系。很多时候,我们难以得出其中一个的时候,可以改求另一个。
下,该声音是某段语音
的条件概率最大的
为识别结果。然而
并不好求。所以改求
。若所有观察概率
被视为相同,则不需要考虑。剩下的
叫做声学模型,描述该段语音会发出什么样的声音。而P(s)叫做语言模型,包含着语法规则信息。
而全概率公式又是连接条件概率与非条件概率的桥梁。
全概率公式可以将非条件概率,分成若干块条件概率来计算。
获得汽车的概率可以用拆分成选择各个门可得汽车的概率。
为车在第一扇门的概率。
,即1/3.
由于换门的选择而变成了0。