信息熵是一种信息不确定性的度量,而两个随机变量分布匹配程度的度量可以使用KL散度。
KL 散度(Kullback–Leibler divergence,简称KLD),也称作相对嫡(relative entropy),信息散度(information divergence),信息增益(information gain)。
字符x出现的概率为P(x),那么编码x需要的最优长度为log(P(x)),H(X)即为编码字符集X的期望编码长度,即按照概率加权平均,也不失为信息熵的一种理解方法。
在同样的字符集上,假设存在另一个概率分布Q(X)。如果用概率分布P(X)的最优编码(即字符x的编码长度等于log[1/P(x)],来为符合分布Q(X)的字符编码,那么表示这些字符就会比理想情况多用一些比特数。KL散度就是用来衡量这种情况下平均每个字符多用的比特数,因此可以用来衡量两个分布的距离。即:
D_{KL}({Q||P})的意思就是用P的最优编码方法(\rm{log}\frac{1}{{P(X)}})来编码Q分布中的变量,这种编码需要付出的额外编码长度
证明:
由于-log(x)是凸函数,因此有:
当P(x)=Q(x)时等式成立
直观上看对于 D_{K L}(P | Q) , 当 P(x) 较大的地方, Q(x) 也应该较大,这样才能使得 P(x) \log \frac{P(x)}{Q(x)} 较 小。 对于 P(x) 较小的地方, Q(x) 就没有什么限制就能够使得 P(x) \log \frac{P(x)}{Q(x)} 较小。这就是 \mathrm{KL} 散度不满足对 称性的原因。
假设真实分布 P 为混合高斯分布,它由两个高斯分布的分量组成。如果希望用普通的高斯分布 Q 来近 似 P , 则有两种方案:
如果选择 Q_{1}^{*} , 则:
如果选择 Q_{2}^{*} , 则:
绝大多数场合使用 D_{K L}(P | Q)
原因是:当用分布 Q 拟合 P 时我们希望对于常见的事件, 二者概率相 差不大。