熵entropy
,用来描述概率分布的混乱程度,描述包含的信息量。
一般认为,越混乱的系统包含的信息量越大,反之确定的概率为1的系统不包含任何信息量。
以猜数字举例,猜1到100的一个数字,采用二分法的话需要log_2(100)
次,从这个角度理解,熵
是所有信息进行二进制编码需要的位数。
更一般的,对于一个概率分布X∼P(xi=pi)X \sim P(x_i = p_i),其熵为:
熵有以下特点:
关于熵的公式有以下几个:
其中,H(X,Y)H(X,Y) 可以理解成X,YX,Y的联合概率分布的熵,I(X,Y) 可以理解成增加YY的information gain
以及mutual entropy
。
熵和贝叶斯都有一个大前提——知道概率分布。但是两者侧重不一样:
keep score
,量化提取信息的程度。三门问题(Monty Hall problem)亦称为蒙提霍尔问题、蒙特霍问题或蒙提霍尔悖论,大致出自美国的电视游戏节目Let’s Make a Deal。问题名字来自该节目的主持人蒙提·霍尔(Monty Hall)。参赛者会看见三扇关闭了的门,其中一扇的后面有一辆汽车,选中后面有车的那扇门可赢得该汽车,另外两扇门后面则各藏有一只山羊。当参赛者选定了一扇门,但未去开启它的时候,节目主持人开启剩下两扇门的其中一扇,露出其中一只山羊。主持人其后会问参赛者要不要换另一扇仍然关上的门。问题是:换另一扇门会否增加参赛者赢得汽车的机会率?如果严格按照上述的条件,即主持人清楚地知道,哪扇门后是羊,那么答案是会。换门的话,赢得汽车的机率是2/3。
这道题的关键是,主持人的操作,改变了原来的概率分布!
从概率的观点来看,坚持观点获胜的概率是0.330.33,改变观点获胜的概率是0.670.67。
从熵的观点来看,主持人提供信息之前的熵是
主持人提供信息之后的熵是
所以主持人的information gain
是
占原来的熵比例是
也就是说,主持人将结果的不确定性减少了41.8%。
现在将原问题稍作修改,有5个门,主持人打开没有奖的两个门。
从概率的观点来看,不改变观点获胜的概率是1/51/5,改变观点获胜的概率是2/52/5,失败的概率是2/52/5。
从熵的角度上看,原来的熵是2.322.32,主持人操作后熵是1.521.52,熵减了0.80.8,减少了34.5%34.5\%。
小明喜欢和大家玩投掷硬币的游戏,30%30\%的时间他用均匀的硬币,70%70\%的时间他用不均匀的硬币。均匀硬币正反的概率都是0.50.5,不均与的硬币正反的概率分别是0.4,0.60.4,0.6。
现在投掷的第一枚是正面,那么会造成:
Null | Fair | Un-Fair | Entropy |
---|---|---|---|
实验前 | 0.3 | 0.7 | 0.8813 |
实验后 | 0.35 | 0.65 | 0.9341 |