两种交叉熵损失函数的异同

在学习机器学习的时候,我们会看到两个长的不一样的交叉熵损失函数。 假设我们现在有一个样本 {x,t},这两种损失函数分别是。

t_j说明样本的ground-truth是第j类。

这两个都是交叉熵损失函数,但是看起来长的却有天壤之别。为什么同是交叉熵损失函数,长的却不一样呢?

因为这两个交叉熵损失函数对应不同的最后一层的输出。第一个对应的最后一层是softmax,第二个对应的最后一层是sigmoid。

如果看到这个答案就明白了的话,就没必要往下看了,如果感觉云里雾里的话,请听细细分解。

首先来看信息论中交叉熵的定义:

现在来看softmax作为最后一层的情况。g(x)是什么呢?就是最后一层的输出 y 。p(x)是什么呢?就是我们的one-hot标签。我们带入交叉熵的定义中算一下,就会得到第一个式子:

  • j : 样本x属于第j类。

再来看sigmoid作为最后一层的情况。sigmoid作为最后一层输出的话,那就不能吧最后一层的输出看作成一个分布了,因为加起来不为1。现在应该将最后一层的每个神经元看作一个分布,对应的 target 属于二项分布(target的值代表是这个类的概率),那么第 i 个神经元交叉熵为:

,所以最后一层总的交叉熵损失函数是

解释完了,最后总结一下:这两个长的不一样的交叉熵损失函数实际上是对应的不同的输出层。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏郭耀华‘s Blog

各种卷积结构原理及优劣总结

卷积神经网络作为深度学习的典型网络,在图像处理和计算机视觉等多个领域都取得了很好的效果。

1061
来自专栏杨熹的专栏

什么是神经网络

本文结构: 什么是神经网络 什么是神经元 神经网络的计算和训练 代码实现 ---- 1. 什么是神经网络 神经网络就是按照一定规则将多个神经元连接起来的网络 例...

3425
来自专栏机器学习算法工程师

深入浅出解读卷积神经网络

作者:石文华 编辑:田 旭 卷积神经网络 ? 图1 全连接神经网络结构图 ? 图2 卷积神经网络结构图 卷积神经网络和全连接的神经网络结构上的差异还是比较大的,...

2844
来自专栏用户2442861的专栏

python 逻辑回归

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/haluoluo211/article/d...

4351
来自专栏用户画像

交叉验证

版权声明:本文为博主-姜兴琪原创文章,未经博主允许不得转载。

1962
来自专栏AIUAI

目标检测 - Faster R-CNN 中 RPN 原理

5018
来自专栏素质云笔记

无监督︱异常、离群点检测 一分类——OneClassSVM

OneClassSVM两个功能:异常值检测、解决极度不平衡数据 因为之前一直在做非平衡样本分类的问题,其中如果有一类比例严重失调,就可以直接用这个方式来做:On...

1.6K6
来自专栏量化投资与机器学习

深度学习Matlab工具箱代码注释之cnnff.m

%%========================================================================= %...

3086
来自专栏SnailTyan

Single Shot MultiBox Detector论文翻译——中英文对照

SSD: Single Shot MultiBox Detector Abstract We present a method for detecting ob...

2710
来自专栏机器学习算法工程师

Object Detection系列(三) Fast R-CNN

作者:张 旭 编辑:黄俊嘉 ? 该内容是目标检测系列的第三篇,系列前部分内容如下,点击可查看: Object Detection系列(一) R-CNN O...

3897

扫码关注云+社区

领取腾讯云代金券