教程地址:http://www.showmeai.tech/tutorials/83
本文地址:http://www.showmeai.tech/article-detail/164
声明:版权所有,转载请联系平台与作者并注明出处
信息论是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。信息论中包含的知识和概念在机器学习中也有应用,典型的例子是其核心思想『熵』的应用。
例如,决策树模型ID3、C4.5中是利用信息增益来确定划分特征而逐步生长和构建决策树的;其中,信息增益就是基于信息论中的熵。
熵是1854年由克劳休斯提出的一个用来度量体系混乱程度的单位,并阐述了热力学第二定律熵增原理:在孤立系统中,体系与环境没有能量交换,体系总是自发的向混乱度增大的方向变化,使整个系统的熵值越来越大。
熵越大,表征的随机变量的不确定度越大,其含有的信息量越多。
随机变量X可能的取值为
其概率分布为P\left( X=x_{i} \right) =p_{i},i = 1, 2, \dots, n,则随机变量X的熵定义为H(X):
联合熵,就是度量一个联合分布的随机系统的不确定度。分布为P(x,y)的一对随机变量(X,Y),其联合熵定义如上。
联合熵的物理意义,是观察一个多随机变量的随机系统获得的信息量,是对二维随机变量(X,Y)不确定性的度量。
Y的条件熵是指『在随机变量X发生的前提下,随机变量Y发生新带来的熵』,用H(Y | X)表示:
条件熵的物理意义,在得知某一确定信息的基础上获取另外一个信息时所获得的信息量,用来衡量在已知随机变量的X条件下,随机变量Y的不确定性。
相对熵在信息论中用来描述两个概率分布差异的熵,叫作KL散度、相对熵、互熵、交叉熵、信息增益。对于一个离散随机变量的两个概率分布P和Q来说,它们的相对熵定义为:
注意:公式中P表示真实分布,Q表示P的拟合分布,D(P||Q) ≠ D(Q||P)
相对熵表示当用概率分布Q来拟合真实分布P时,产生的信息损耗。
互信息是信息论里一种有用的信息度量方式,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。
互信息的计算方式定义如下:
推导过程如下:
H(X, Y)-H(X) \\ =-\sum_{x, y} p(x, y) \log p(x, y)+\sum_{x} p(x) \log p(x) \\ =-\sum{x, y} p(x, y) \log p(x, y)+\sum{x}\left(\sum_{y} p(x, y)\right) \log p(x) \\ =-\sum{x, y} p(x, y) \log p(x, y)+\sum{x, y} p(x, y) \log p(x) \\ =-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x)} \\ =-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x)} \\
推导过程如下:
H(Y)-I(X, Y) \ =-\sum{y} p(y) \log p(y)-\sum{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)} \\
=-\sum{y}\left(\sum{x} p(x, y)\right) \log p(y)-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)} \
=-\sum{x, y} p(x, y) \log p(y)-\sum{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)} \
=-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x)} \
=-\sum_{x, y} p(x, y) \log p(y \mid x) \
=H(Y \mid X)
由上方的两个公式
可以推出I(X,Y)= H(X) + H(Y) - H(X,Y),此结论被多数文献作为互信息的定义
机器学习领域,概率模型学习过程中有一个最大熵原理,即学习概率模型时,在所有可能的概率分布中,熵最大的模型是最好的模型。
通常用约束条件来确定模型的集合,所以最大熵模型原理也可以表述为:在满足约束条件的模型集合中,选取熵最大的模型。
前面我们知道,若随机变量X的概率分布是P\left( x_{i} \right),其熵的定义如下:
H\left( X \right) =-\sum{i=1}^{n}{P\left( x{i} \right) logP\left( x{i} \right) } =\sum{i=1}^{n}{P\left( x{i} \right) \frac{1}{logP\left( x{i} \right) } }
熵满足下列不等式:0\leq H\left( X \right) \leq log\left| X \right|
直观地看,最大熵原理认为: