信息论中的各种熵

本文简单介绍了信息论中的各种熵,包括自信息、熵;联合熵、条件熵、互信息;KL散度、交叉熵。并在最后用信息论中的交叉熵推导了逻辑回归,得到了和最大似然法相同的结果。

熵是信息的关键度量,通常指一条信息中需要传输或者存储一个信号的平均比特数。熵衡量了预测随机变量的不确定度,不确定性越大熵越大。

针对随机变量XX,其信息熵的定义如下:

H(X)=E[log2(X)]=∑−p(x)log2(p(x))

H(X) = E[\log_2 (X)] = \sum -p(x) \log_2 (p(x))

信息熵是信源编码中,压缩率的下限。当我们使用少于信息熵的信息量做编码,那么一定有信息的损失。

联合熵

联合熵是一集变量之间不确定的衡量手段。

H(X,Y)=∑∑−p(x,y)log(p(x,y))

H(X,Y) = \sum \sum -p(x,y) \log(p(x,y))

条件熵

条件熵描述变量Y在变量X确定的情况下,变量Y的熵还剩多少。

H(Y|X)=∑∑−p(x,y)log(p(y|x))

H(Y|X) = \sum \sum -p(x,y) \log(p(y|x))

联合熵和条件熵的关系是:

H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)=H(Y,X)

H(X,Y) = H(X) +H(Y|X) = H(Y) + H(X|Y) = H(Y,X)

自信息

自信息表示概率空间中与单一事件或离散变量的值相关的信息量的量度。

I(x)=−log(p(x))

I(x) = -\log(p(x))

平均的自信息就是信息熵。

H(X)=E[log2(X)]=∑−p(x)log2(p(x))

H(X) = E[\log_2 (X)] = \sum -p(x) \log_2 (p(x))

互信息

两个随机变量的互信息,是变量间相互依赖性的量度,不同于相关系数,互信息不限于实值随机变量,其更加一般。

I(X;Y)=∑∑−p(x,y)log(p(x)p(y)p(x,y))

I(X;Y) = \sum\sum -p(x,y) \log(\frac{p(x)p(y)}{p(x,y)})

I(X;Y)=H(X)−H(X|Y)=H(Y)−H(Y|X)=H(X)+H(Y)−H(X,Y)=H(X,Y)−H(X|Y)−H(Y|X)

\begin{split} I(X;Y) &= H(X)-H(X|Y) \\ &= H(Y)-H(Y|X) \\ &=H(X)+H(Y)-H(X,Y) \\ &=H(X,Y)-H(X|Y)-H(Y|X) \end{split}

其意义为,若我们想知道Y包含多少X的信息,在尚未得到 Y之前,我们的不确定性是 H(X),得到Y后,不确定性是H(X|Y)。所以一旦得到Y后,我们消除了 H(X)-H(X|Y)的不确定量,这就是Y对X的信息量。

KL散度(信息增益)

KL散度,又称为相对熵(relative entropy)、信息散度(information divergence)、信息增益(information gain)。

KL散度是两个概率分布P和Q差别非对称性的度量。KL散度用来度量基于Q的编码来编码来自P的样本平均所需的额外的位元数。典型情况下,P表示数据的真实分布,Q表述数据的模型分布。

DKL(P||Q)=∑iP(i)logP(i)Q(i)

D_{KL} (P||Q)= \sum_i P(i) \log \frac{P(i)}{Q(i)}

交叉熵

交叉熵衡量了在真实分布是P的情况的情况下,使用分布Q去编码数据,需要的平均比特。

H(p,q)=Ep[−logq]=H(p)+Dkl(p|q)

H(p,q) = E_p [-\log q] = H(p) + D_{kl} (p|q)

H(p,q)=∑−p(x)log(q(x))

H(p,q) = \sum -p(x)\log(q(x))

交叉熵与逻辑回归的关系如下:

逻辑回归中:

  • qy=1=y^=g(wx)q_{y=1} = \hat{y} = g(wx)
  • qy=0=1−y^=1−g(wx)q_{y=0} = 1-\hat{y} = 1-g(wx)

数据的真实分布中:

  • py=1=yp_{y=1} = y
  • py=0=1−yp_{y=0} = 1-y

因此,可以用交叉熵去衡量估计分布q与真实分布p的相似性,交叉熵越小那么越相似。

H(p,q)=∑−p(x)logq(x)=−ylog(y^)−(1−y)log(1−y^)

H(p,q) = \sum -p(x) \log q(x) = -y\log(\hat{y})-(1-y)\log(1-\hat{y})

因此,损失函数为,得到了和最大似然推导相同的结果:

L(w)=1N∑n=1NH(pn,qn)=1N∑n=1N[−ylog(y^)−(1−y)log(1−y^)]=1N∑n=1Nlog(1+exp(−ynwxn))

\begin{split} L(w) &= \frac{1}{N} \sum_{n=1}^N H(p_n,q_n) \\ &= \frac{1}{N} \sum_{n=1}^N [- y\log(\hat{y})-(1-y)\log(1-\hat{y})] \\ &= \frac{1}{N} \sum_{n=1}^N \log(1+\exp(-y_nw x_n)) \end{split}

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

「Deep Learning」读书系列分享第四章:数值计算 | 分享总结

AI 科技评论按:「Deep Learning」这本书是机器学习领域的重磅书籍,三位作者分别是机器学习界名人、GAN的提出者、谷歌大脑研究科学家 Ian Goo...

33910
来自专栏计算机视觉战队

值得一看——机器学习中容易犯下的错

前言 在工程中,有多种方法来构建一个关键值存储,并且每个设计都对使用模式做了不同的假设。在统计建模,有各种算法来建立一个分类,每一个算法的对数据集有不同的假设。...

3355
来自专栏ATYUN订阅号

LSTM的简单介绍,附情感分析应用

? 长短期记忆网络,通常称为“LSTM”(Long Short Term Memory network,由Schmidhuber和Hochreiterfa提出...

3086
来自专栏企鹅号快讯

深度学习概述与发展历史-花书第一章解读(上)

我的整理/学习计划,主要以NG的DL课程为蓝本,以DL花书为主要阅读材料,以其他网课与BLOG相关内容为参考。NG的DL课程与花书有如下对应关系:课程一《神经网...

1906
来自专栏机器之心

CVPR2018 | CMU&谷歌Spotlight论文:超越卷积的视觉推理框架

选自arXiv 作者:陈鑫磊等 机器之心编译 参与:张倩、李泽南 人类在看到图像时可以进行合理的推理与预测,而目前的神经网络系统却还难以做到。近日,来自卡耐基梅...

2878
来自专栏IT派

如何用Keras打造出“风格迁移”的AI艺术作品

过去几年,卷积神经网络(CNN)成为一种前沿的计算机视觉工具,在业界和学界广泛应用。除了人脸识别和无人驾驶领域,CNN 这几年还在艺术领域广受欢迎,其中衍生出一...

1110
来自专栏AI研习社

数值计算——「Deep Learning」读书系列分享第四章分享总结

「Deep Learning」这本书是机器学习领域的重磅书籍,三位作者分别是机器学习界名人、GAN 的提出者、谷歌大脑研究科学家 Ian Goodfellow,...

35112
来自专栏ATYUN订阅号

【学术】你真的知道什么是随机森林吗?本文是关于随机森林的直观解读

对于那些认为随机森林是一种黑箱算法的人来说,这篇文章可以提供不同的观点。我将介绍4种解释方法,这些方法可以帮助我们从随机森林模型中得到一些直观的解释。我还将简要...

55210
来自专栏小小挖掘机

用Deep Recurrent Q Network解决部分观测问题!

好了,回到正题!我们都知道,深度Q网络(Deep-Q-Network)最初是应用在让机器人打游戏,状态的输入常常是前几个画面的截图,但是有时候仅仅靠前面画面的图...

1104
来自专栏专知

【干货】基于注意力机制的神经匹配模型用于短文本检索

【导读】在基于检索的问答系统中,很重要的一步是将检索到的答案进行排序得到最佳的答案。在检索到的答案比较短时,对答案进行排序也成为了一个难题。使用深度学习的方法,...

5608

扫码关注云+社区