前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >直观理解为什么分类问题用交叉熵损失而不用均方误差损失?

直观理解为什么分类问题用交叉熵损失而不用均方误差损失?

作者头像
李拜六不开鑫
发布2019-12-16 18:08:41
3.2K0
发布2019-12-16 18:08:41
举报
文章被收录于专栏:本立2道生本立2道生

交叉熵损失与均方误差损失

常规分类网络最后的softmax层如下图所示,传统机器学习方法以此类比,

https://stats.stackexchange.com/questions/273465/neural-network-softmax-activation
https://stats.stackexchange.com/questions/273465/neural-network-softmax-activation

一共有

K

类,令网络的输出为

,对应每个类别的概率,令label为

[y1,…,yK]

。对某个属于

p

类的样本,其label中

yp=1

y1,…,yp−1,yp+1,…,yK

均为0。

对这个样本,交叉熵(cross entropy)损失

均方误差损失(mean squared error,MSE)

m

个样本的损失为

\ell = \frac{1}{m} \sum_{i=1}^m L_i

对比交叉熵损失与均方误差损失,只看单个样本的损失即可,下面从两个角度进行分析。

损失函数角度

损失函数是网络学习的指挥棒,它引导着网络学习的方向——能让损失函数变小的参数就是好参数。

所以,损失函数的选择和设计要能表达你希望模型具有的性质与倾向。

分类问题中,对于类别之间的相关性,我们缺乏先验。

虽然我们知道,与“狗”相比,“猫”和“老虎”之间的相似度更高,但是这种关系在样本标记之初是难以量化的,所以label都是one hot。

在这个前提下,均方误差损失可能会给出错误的指示,比如猫、老虎、狗的3分类问题,label为

[1,0,0]

,在均方误差看来,预测为

[0.8, 0.1, 0.1]

要比

[0.8, 0.15, 0.05]

要好,即认为平均总比有倾向性要好,但这有悖我们的常识

对交叉熵损失,既然类别间复杂的相似度矩阵是难以量化的,索性只能关注样本所属的类别,只要

越接近于1就好,这显示是更合理的。

softmax反向传播角度

softmax的作用是将

(−∞,+∞)

的几个实数映射到

(0,1)

之间且之和为1,以获得某种概率解释。

综上,对分类问题而言,无论从损失函数角度还是softmax反向传播角度,交叉熵都比均方误差要好。

参考

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019-12-12 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 交叉熵损失与均方误差损失
  • 损失函数角度
  • softmax反向传播角度
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档