前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >KL散度与交叉熵

KL散度与交叉熵

作者头像
狼啸风云
修改2022-09-04 21:47:23
1.9K0
修改2022-09-04 21:47:23
举报

一、熵

香农熵(Shannon entropy)用来对概率分布中不确定性总量进行量化:

H(x)=E_{x \sim P}[I(x)]=-E_{x \sim P}[\log P(x)]

也记作H(P)。换言之,一个分布的香农熵是指遵循这个分布的时间所产生的期望的信息总量。它给出了对依据概率分布P生成的符号进行编码所需的比特数在平均意义上的下界。哪些接近确定性的分布(输出几乎可以确定)具有较低的熵:那些接近均匀分布的概率分布的概率分布具有较高的熵。当x是连续时,香农熵被称为微分熵(differential entropy)。

二、KL散度

如果对同一个随机变量x有两个单独的概率分布P(x)和Q(x),可以使用KL散度(Kullback-Leibler(KL) divergence)来衡量这两个分布的差异:

D_{K L}(P \| Q)=E_{x \sim P}\left[\log \frac{P(x)}{Q(x)}\right]=E_{x \sim P}[\log P(x)-\log Q(x)]

对离散型型随机变量,表达式展开为:

D_{K L}(p \| q)=\sum_{i=1}^{N} p\left(x_{i}\right) \cdot \log \frac{p\left(x_{i}\right)}{q\left(x_{i}\right)}

KL散度的意义:KL散度衡量的是,当我们使用一种被设计成能够使得模型概率分布Q产生的消息的长度最小的编码,发送包含由概率分布P产生的消息时,所需要的额外的信息量。

KL散度有很多有用的性质,最中要的是,它是非负的,KL散度为0。当且仅当P和Q在离散型变量的情况下是相同的分布,或者在连续型变量的情况下是“几乎处处”相同的。因为KL散度是非负的并且衡量的是两个分布之间的差异,它经常被用作分布之间的某种距离。然而,它并不是真正的距离,因为它不是对称的:对于某些P和Q,D_{K L}(P \| Q) \neq D_{K L}(Q \| P) 。这种非对称意味着选择D_{K L}(P \| Q) 还是D_{K L}(Q \| P)影响很大。

三、交叉熵

和KL散度密切联系的是交叉熵(cross-entropy),即H(P, Q)=H(P)+D_{K L}(P \| Q) ,它和KL散度很像,但是缺少左边一项:

H(P, Q)=-E_{x \sim P} \log Q(x) 对离散型型随机变量,表达式展开为:

D_{K L}(p \| q)=-\sum_{i=1}^{N} p\left(x_{i}\right) \cdot q\left(x_{i}\right)

针对Q最小化交叉熵等价于最小化KL散度,因为Q并不参与被省略的那一项。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019年07月11日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、熵
  • 二、KL散度
  • 三、交叉熵
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档