我见过一些文章和研究论文提到了这些提高机器学习模型性能的技术。
当我们不确定数据集的标签是否正确时,这些技术当然是有意义的。
然而,我想知道在标签正确的情况下,这两种技术是否对ML模型是有益的?
发布于 2019-07-31 08:19:31
标签翻转是一种训练技术,它有选择地操纵标签,以使模型对标签噪声和相关攻击更加健壮--细节在很大程度上取决于噪声的性质。标签翻转只在假设所有标签都是正确的(而且永远都是正确的)并且没有对手存在的情况下才没有好处。在需要忍受噪音的情况下,使用标签翻转的训练是有益的。
标签平滑是一种旨在提高模型性能的正则化技术。无论标签的正确性如何,它的效果都会发生。
在没有标签平滑的情况下,对softmax分类器进行训练,使其能够对训练集进行无限自信的预测。这鼓励模型学习大重量和强烈的反应。当值被推到训练数据集中的区域之外时,模型在线性外推时会做出更极端的预测。标签平滑惩罚了对训练集进行过度自信预测的模型,迫使它要么学习一个更非线性的函数,要么学习一个斜率较小的线性函数。因此,标签平滑模型的外推不那么极端。
有信心的预测对应于低熵的输出分布。当一个网络把所有的概率都放在训练集中的一个班级上时,它是过于自信的,这通常是过度适应的症状。置信度惩罚是一个正则化项,它阻止了这些峰值分布,导致了更好的泛化。
由于标签平滑的结果,该模型在一般情况下变得更加稳健。它增加了处理不正确标签的能力,这只是整体改进的一部分。然而,人们不能声称标签平滑的效果纯粹是有益的。
尽管对泛化和校准有积极的影响,标签平滑会损害蒸馏。我们从删除信息的角度来解释这一效应。通过标签平滑,该模型被鼓励将每个不正确的类视为相同的概率。对于硬目标,在以后的表示中执行更少的结构,从而能够在预测的类和/或示例之间实现更多的logit变化。这可以通过估计输入示例和输出逻辑之间的互信息来量化,正如我们已经显示的,标签平滑减少了相互信息。
发布于 2020-06-22 06:16:00
假设您有一个语言模型,用于预测下一个单词。培训数据中的一个示例是
hello, how, are, you
所以输入是三个单词"hello,how,are“,输出的词是"you”。如果没有标签平滑,你就会告诉网络
也就是说,“你”总是跟在“你好,你好,是”这三个字后面。
这是不对的。有数百个单词可以跟随“你好,如何,是”(例如“你好,他们怎么样”)。
在这种情况下,平滑标签意味着网络得到了更好的数据。
https://datascience.stackexchange.com/questions/55359
复制相似问题