信息论中的各种熵

本文简单介绍了信息论中的各种熵,包括自信息、熵;联合熵、条件熵、互信息;KL散度、交叉熵。并在最后用信息论中的交叉熵推导了逻辑回归,得到了和最大似然法相同的结果。

熵是信息的关键度量,通常指一条信息中需要传输或者存储一个信号的平均比特数。熵衡量了预测随机变量的不确定度,不确定性越大熵越大。

针对随机变量XX,其信息熵的定义如下:

H(X)=E[log2(X)]=∑−p(x)log2(p(x))

H(X) = E[\log_2 (X)] = \sum -p(x) \log_2 (p(x))

信息熵是信源编码中,压缩率的下限。当我们使用少于信息熵的信息量做编码,那么一定有信息的损失。

联合熵

联合熵是一集变量之间不确定的衡量手段。

H(X,Y)=∑∑−p(x,y)log(p(x,y))

H(X,Y) = \sum \sum -p(x,y) \log(p(x,y))

条件熵

条件熵描述变量Y在变量X确定的情况下,变量Y的熵还剩多少。

H(Y|X)=∑∑−p(x,y)log(p(y|x))

H(Y|X) = \sum \sum -p(x,y) \log(p(y|x))

联合熵和条件熵的关系是:

H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)=H(Y,X)

H(X,Y) = H(X) +H(Y|X) = H(Y) + H(X|Y) = H(Y,X)

自信息

自信息表示概率空间中与单一事件或离散变量的值相关的信息量的量度。

I(x)=−log(p(x))

I(x) = -\log(p(x))

平均的自信息就是信息熵。

H(X)=E[log2(X)]=∑−p(x)log2(p(x))

H(X) = E[\log_2 (X)] = \sum -p(x) \log_2 (p(x))

互信息

两个随机变量的互信息,是变量间相互依赖性的量度,不同于相关系数,互信息不限于实值随机变量,其更加一般。

I(X;Y)=∑∑−p(x,y)log(p(x)p(y)p(x,y))

I(X;Y) = \sum\sum -p(x,y) \log(\frac{p(x)p(y)}{p(x,y)})

I(X;Y)=H(X)−H(X|Y)=H(Y)−H(Y|X)=H(X)+H(Y)−H(X,Y)=H(X,Y)−H(X|Y)−H(Y|X)

\begin{split} I(X;Y) &= H(X)-H(X|Y) \\ &= H(Y)-H(Y|X) \\ &=H(X)+H(Y)-H(X,Y) \\ &=H(X,Y)-H(X|Y)-H(Y|X) \end{split}

其意义为,若我们想知道Y包含多少X的信息,在尚未得到 Y之前,我们的不确定性是 H(X),得到Y后,不确定性是H(X|Y)。所以一旦得到Y后,我们消除了 H(X)-H(X|Y)的不确定量,这就是Y对X的信息量。

KL散度(信息增益)

KL散度,又称为相对熵(relative entropy)、信息散度(information divergence)、信息增益(information gain)。

KL散度是两个概率分布P和Q差别非对称性的度量。KL散度用来度量基于Q的编码来编码来自P的样本平均所需的额外的位元数。典型情况下,P表示数据的真实分布,Q表述数据的模型分布。

DKL(P||Q)=∑iP(i)logP(i)Q(i)

D_{KL} (P||Q)= \sum_i P(i) \log \frac{P(i)}{Q(i)}

交叉熵

交叉熵衡量了在真实分布是P的情况的情况下,使用分布Q去编码数据,需要的平均比特。

H(p,q)=Ep[−logq]=H(p)+Dkl(p|q)

H(p,q) = E_p [-\log q] = H(p) + D_{kl} (p|q)

H(p,q)=∑−p(x)log(q(x))

H(p,q) = \sum -p(x)\log(q(x))

交叉熵与逻辑回归的关系如下:

逻辑回归中:

  • qy=1=y^=g(wx)q_{y=1} = \hat{y} = g(wx)
  • qy=0=1−y^=1−g(wx)q_{y=0} = 1-\hat{y} = 1-g(wx)

数据的真实分布中:

  • py=1=yp_{y=1} = y
  • py=0=1−yp_{y=0} = 1-y

因此,可以用交叉熵去衡量估计分布q与真实分布p的相似性,交叉熵越小那么越相似。

H(p,q)=∑−p(x)logq(x)=−ylog(y^)−(1−y)log(1−y^)

H(p,q) = \sum -p(x) \log q(x) = -y\log(\hat{y})-(1-y)\log(1-\hat{y})

因此,损失函数为,得到了和最大似然推导相同的结果:

L(w)=1N∑n=1NH(pn,qn)=1N∑n=1N[−ylog(y^)−(1−y)log(1−y^)]=1N∑n=1Nlog(1+exp(−ynwxn))

\begin{split} L(w) &= \frac{1}{N} \sum_{n=1}^N H(p_n,q_n) \\ &= \frac{1}{N} \sum_{n=1}^N [- y\log(\hat{y})-(1-y)\log(1-\hat{y})] \\ &= \frac{1}{N} \sum_{n=1}^N \log(1+\exp(-y_nw x_n)) \end{split}

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏深度学习自然语言处理

近期有哪些值得读的QA论文?

■ 论文 | Making Neural QA as Simple as Possible but not Simpler

1353
来自专栏人工智能LeadAI

BAT机器学习面试1000题系列(第1~75题)

今17年,近期和团队整理BAT机器学习面试1000题系列,侧重机器学习、深度学习。我们将通过这个系列索引绝大部分机器学习和深度学习的笔试面试题、知识点,它将更是...

6445
来自专栏杨熹的专栏

深度学习与自然语言处理 主要概念一览CS224d-Day 1:

---- CS224d-Day 1: 要开始系统地学习 NLP 课程 cs224d,今天先来一个课程概览。 课程一共有16节,先对每一节中提到的模型,算法,工...

35811
来自专栏新智元

【CVPR演讲】LeCun 谈深度学习技术局限及发展(157PPT)

【新智元导读】Facebook AI 实验室负责人Yann LeCun 在 CVPR2015 演讲,提到了深度学习在计算机视觉领域的应用及局限,比如缺乏理论、缺...

4257
来自专栏人工智能

在图像中标注新的对象

给定一个图像,人类可以很容易地推断其中的显着实体,并有效地描述场景,如对象所在的位置(在森林或厨房?),对象具有什么属性(棕色或白色?),更重要的是,物体如何与...

35611
来自专栏杨熹的专栏

凸优化有什么用

本文结构: 凸优化有什么用? 什么是凸优化? ---- 凸优化有什么用? 鉴于本文中公式比较多,先把凸优化的意义写出来吧,就会对它更有兴趣。 我们知道在机器学习...

3958
来自专栏数据派THU

基于多篇经典论文综述Attention模型方法(附源码)

先简单谈一谈 attention 模型的引入。以基于 seq2seq 模型的机器翻译为例,如果 decoder 只用 encoder 最后一个时刻输出的 hid...

1685
来自专栏人工智能LeadAI

透析 | 卷积神经网络CNN究竟是怎样一步一步工作的?

视频地址:https://www.youtube.com/embed/FmpDIaiMIeA; 文档参阅:<a href="https://github.com...

3936
来自专栏北京马哥教育

Python数据挖掘 | 实战案例之预测糖尿病

豌豆贴心提醒,本文阅读时间7分钟 今天给大家讲解一个实战案例:如何根据现有数据预测糖尿病。在这个案例开始之前,希望大家回忆一下大学里讲过的线性回归的知识,...

4209
来自专栏机器学习算法与Python学习

你必须知道的神经网络基础,文末有福利!

人工神经网络表示一类机器学习的模型,最初是受到了哺乳动物中央神经系统研究的启发。网络由相互连接的分层组织的神经元组成,这些神经元在达到一定条件时就会互相交换信息...

520

扫码关注云+社区