前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【让模型更加谦虚】Adaptive Label Smoothing方法让模型结果更加鲁棒

【让模型更加谦虚】Adaptive Label Smoothing方法让模型结果更加鲁棒

作者头像
AIWalker
发布2020-09-24 10:58:20
1.1K0
发布2020-09-24 10:58:20
举报
文章被收录于专栏:AIWalker

本文转载自:AI人工智能初学者

本文提出自适应标签平滑,旨在面向对安全至关重要的应用的CNN,让这些CNN的预测"不要过度自信"。如目的是让决策系统(例如,无人驾驶汽车的转向输入)在模型对预测缺乏信心时,不能以确定的方式做出决策。 作者单位:弗吉尼亚理工大学(VT)

1、简介

本文讨论了利用客观度量的方法来提高卷积神经网络(CNN)的校准性能。客观性是指在给定图像中存在来自任何类别的物体的可能性度量。大家应该都知道CNN是一个已经被证明是非常好用的分类器,它可以做到很好地定位目标对象。但是,就目前的研究进展来看,用于训练分类CNN的损失函数不会惩罚无法定位对象的问题,也不会考虑给定图像中对象的相对大小。

本位币提出了一种新颖的物体定位方法,该方法结合了训练时的客观性和标签平滑化的思想。并可以根据图像内的相对物体大小计算自适应的平滑因子。文中使用ImageNet和OpenImages数据集做了多组实验并给出对比结果以证明与使用hard targets训练的CNN相比,使用自适应标签平滑训练的CNN模型在预测中不太可能过于自信。同时还使用类激活图来显示定性结果,以说明这些改进的有效性。

2、本文方法

2.1、问题分析

现代cnn对自己的预测过于自信,而且由于校准的错误存在,模型都面临着可靠性问题。为了提高泛化性能,对带标记数据的需求越来越大,因为在神经网络中增加参数的数量常常会导致训练数据过拟合,同时获得一个基数大同时带标记数据集非常昂贵。很多研究者也提出了很多对应的方案,比如正则化、标签平滑等;这里正则化是为了提高网络神经网络泛化和最小化过拟合特性。标签平滑,在训练期间提供硬目标的加权平均和均匀分布的软标签,以提高学习速度和泛化性能。

在分类CNN的情况下,Ground-Truth通常作为类概率的One-Hot表示提供。这些标签由0和1组成。1表示给定标签向量中相关类别,0则表示不是该类别。然而软目标不提供硬目标来计算交叉熵损失,而是使用一个固定的平滑因子在所有类上均匀分布的加权平均来改善训练信号。标签平滑可以最小化类间的Gap,提升了学习速度和泛化性;相反,Hard Targets往往会增加对数的值,并产生过于自信的预测。

2.2、Proposed Method

这里给出软标签Sotf Label的公式如下:

\hat z_i=\frac{z_i(1-\alpha)+(1-z_i)\alpha}{K-1}

上式中,

z_i

表示标签

\hat y_i

的One-Hot编码,这里的

\hat y_i=argmax_{y\in Y}f_{\theta}(y|x_i)

\theta

表示模型的参数权重;

\alpha=\frac{wh}{WH} \in [0,1]

,K表示K个类别。

本文的方法的新颖之处在于使其自适应,根据给定训练图像中物体的相对大小来计算值。使用数据集中图像可用的边界框生成对象Mask。还探索了自适应标签平滑和硬标签的加权组合。为了做到这一点引入参数

\beta \in [0,1]

来确定应用自适应标签平滑的程度。具体公式如下:

\widetilde{z_i}=\frac{\beta[z_i(1-\alpha)+(1-z_i)\alpha]}{\beta(K-1)}+(1-\beta)

从上式可以看出,当

\beta=0

时,为Hard Label;当

\beta=1

时,为Soft Label;

3、实验结果

作者针对不同的任务和数据集分别给出了激活图和表格进行说明:

4、总结

实验证明了方法的有效性,同时得出增加

\beta

的值可以帮助减少模型的过度自信,并产生与标签平滑和硬标签设置相比较少“峰值”的预测。通过改变超参数的值可以观察到另一个有趣的趋势。随着value值的降低,过度自信率也随之增加到1。

更为详细内容可以参见论文中的描述。

References

[1] One Size Doesn’t Fit All: Adaptive Label Smoothing

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-09-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIWalker 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1、简介
  • 2、本文方法
    • 2.1、问题分析
      • 2.2、Proposed Method
      • 3、实验结果
      • 4、总结
      • References
      相关产品与服务
      人工智能与机器学习
      提供全球领先的人脸识别、文字识别、图像识别、语音技术、NLP、人工智能服务平台等多项人工智能技术,共享 AI 领域应用场景和解决方案。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档