前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >信息论 - 交叉熵

信息论 - 交叉熵

作者头像
为为为什么
发布2022-08-05 15:08:26
2880
发布2022-08-05 15:08:26
举报
文章被收录于专栏:又见苍岚又见苍岚

交叉熵(Cross Entropy)是Shannon信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息。

定义

在信息论中,交叉熵(Cross Entropy)是表示两个概率分布p,q,其中p表示真实分布,q表示非真实分布,在相同的一组事件中,其中,用非真实分布q来表示某个事件发生所需要的平均比特数。。

  • 假设现在有一个样本集中两个概率分布p,q,其中p为真实分布,q为非真实分布。假如,按照真实分布p来衡量识别一个样本所需要的编码长度的期望为:
\mathrm{H}(\mathrm{p})=\sum_{i} p(i) \cdot \log \left(\frac{1}{p(i)}\right)
  • 但是,如果采用错误的分布q来表示来自真实分布p的平均编码长度,则应该是:
\mathrm{H}(\mathrm{p}, \mathrm{q})=\sum_{i} p(i) \cdot \log \left(\frac{1}{q(i)}\right)
  • 此时就将H(p,q)称之为交叉嫡。交叉嫡的计算方式如下: 对于离散变量采用以下的方式计算:
\mathrm{H}(\mathrm{p}, \mathrm{q})=\sum_{x} p(x) \cdot \log \left(\frac{1}{q(x)}\right)

对于连续变量采用以下的方式计算:

\mathrm{H}(\mathrm{p}, \mathrm{q})=-\int_{X} P(x) \log Q(x) d r(x)=E_{p}[-\log Q]

含义

  • 交叉熵可以看作真实分布的熵与估计分布与真实分布的KL散度的和
H(P, Q)=H§+D_{K L}(P | Q)=-\mathbb{E}_{X \sim P(X)} \log Q(x)
  • KL散度不对称,不同分布熵值不同,因此交叉熵不对称
  • 交叉嫡刻画了使用错误分布 Q 来表示真实分布 P 中的样本的平均编码长度。
  • D_{K L(P|| Q)} 刻画了错误分布 Q 编码真实分布 P 带来的平均编码长度的增量。

示例

交叉熵在深度学习的损失函数中得到广泛应用

真实数据分布(标签)为Y,预测分布为P

事实上我们用的交叉熵为H(Y,P),即使用Y的分布,用P的编码方式度量信息熵大小

  • 二分类时
L=\frac{1}{N} \sum_{i} L_{i}=\frac{1}{N} \sum_{i}-\left[y_{i} \cdot \log \left(p_{i}\right)+\left(1-y_{i}\right) \cdot \log \left(1-p_{i}\right)\right]

其中: y_{i} 表示样本 i 的label, 正类为 1, 负类为 0 p_{i} \longrightarrow 表示样本 i 预测为正的概率

  • 多分类
L=\frac{1}{N} \sum_{i} L_{i}=\frac{1}{N} \sum_{i}-\sum_{c=1}^{M} y_{i c} \log \left(p_{i c}\right)

至于为什么不用H(P,Y),可能是因为y的值很容易取到0,超出了log运算的变量取值范围无法计算吧(个人猜测)

参考资料

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021年5月29日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 定义
  • 含义
  • 示例
  • 参考资料
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档