机器之心发布
机器之心编辑部
抗噪鲁棒性学习是机器学习中一个非常重要和热门的领域,各类方法也层出不穷。在本文中,来自香港浸会大学、清华大学等机构的研究者对标签噪声表征学习(LNRL)的方方面面进行了全方位的综述。
监督学习方法通常依赖精确的标注数据,然而在真实场景下数据误标注(标签噪声)问题不可避免。例如,对于数据本身存在不确定性的医疗任务,领域专家也无法给出完全可信的诊断结果(下图 1);基于用户反馈的垃圾邮件过滤程序,用户作为标注人员存在行为的不确定性(例如误点击)。不论是从理论还是从实验角度,人们均发现常见的学习算法会受到标签噪声的负面影响,因此对标签噪声鲁棒的统计学习方法受到广泛的关注。
图 1:前列腺癌变组织,医疗专家给出的不同标注。
在大数据和深度学习的背景下,标签噪声的研究如今有更加重要的意义。一方面,过去基于统计一致性的方法在深度学习领域表现欠佳,而使用非专家提供的噪声标注(如众包平台)则是解决深度学习 data-hungry 问题的重要技术。另一方面,标签噪声对神经网络性能的影响反过来促进了深度学习的理论研究,加深人们对深度学习本质的理解。
深度学习框架下的标签噪声问题(Label Noise Representation Learning, LNRL)最近受到越来越多的关注。在 NeurIPS、ICML 等机器学习顶会中,LNRL 相关文章从 2015 年的 5 至 6 篇迅速增长到如今的几十篇(下图 2)。李飞飞、Yoshua Bengio 等著名学者均发表了大量相关文章。
图 2:机器学习顶会 2015-2020 年间标签噪声相关文章变化趋势。
本文介绍了 LNRL 的最新综述论文《A Survey of Label-noise Representation Learning: Past, Present, and Future》,其中包含超百篇领域前沿文章。论文作者分别来自香港浸会大学、清华大学、香港科技大学、悉尼大学、悉尼科技大学、日本理化研究所和第四范式。
引言
监督学习通常默认训练数据的标签可信,然而高置信度的数据标注在实际工程中可能难以获取。由于基于统计学习的噪声鲁棒学习算法对于深度学习而言并不完全适用,因此这篇综述论文关注针对深度学习的鲁棒学习算法,调研 LNRL 的前沿算法,探讨 LNRL 领域现状和未来发展趋势。
文章结构如下:
问题定义
首先给出经典机器学习定义,形式化地描述了 LNRL 问题,并提供相关示例(下图 3)。
定义 1. 机器学习:计算机程序在任务(Task)T 的性能(Performance)P 可以通过经验(Experience)E 提升,则称该程序可以从经验 E 中学习以性能 P 来衡量的任务 T。
该定义在监督学习问题下对应一组从分布
中i.i.d. 采样的训练数据
,机器学习算法通过训练数据
可以找到最优分类器。
定义 2. 标签噪声表征学习 (Label-Noise Representation Learning, LNRL):LNRL 是一类特殊的机器学习任务,由定义 1 中的经验 E、任务 T、以及性能 P 指定。其中,E 包含对于 T 的带噪监督信息(noisy supervised information),且神经网络被用于对 T 建模。
考虑一组从噪声分布
中 i.i.d. 采样的训练数据
,其中数据的噪声标注
可能与其对应的真实标注
不同。LNRL 问题希望设计对于标签噪声鲁棒的学习算法:在仅给定带噪训练数据
的情况下,仍能使神经网络模型对于测试数据给出准确的预测。
图 3:LNRL 问题的三个示例。
理论分析
理想情况下的训练数据没有标签噪声,损失函数
对应的泛化误差为
。若存在标签噪声,经验风险为
由于
相对于
有偏,研究者希望针对标签噪声问题设计损失函数
。校正后的损失函数
在噪声训练数据下的经验风险为
。
下图 4 给出标签噪声情形下
泛化性能的差距。论文分别从数据(Data)层面、目标(Objective)层面和优化(Optimization)层面给出 LNRL 问题的基础理论分析。
图 4:在标签噪声情形下,使用原损失函数
和修改后的损失函数
泛化性能的差距。
数据层面:从数据本身来讲,我们希望对其分布的标签噪声特性进行建模。直观上,如果噪声性质已知或者本身可以从带噪训练数据中估计,则其可以作为辅助信息帮助我们处理标签噪声。论文主要关注原类别后验概率与噪声类别后验概率之间的联系,通常称为噪声转移概率(noise transition probability),定义为
。
对于噪声转移概率的研究可以追溯至 2014 年,主流工作假设噪声转移概率与实例特征无关,即
。噪声转移概率通常写作矩阵的形式
,称为噪声转移矩阵(noise transition matrix)。噪声转移矩阵估计方法请参考文献 [1,2]。
图 5:图像分类任务(船、猫和狗)噪声转移矩阵示例。
以图像分类任务为例(图 5),噪声转移矩阵描述如下现象:「狗」的图片容易被误标为「猫」而不大可能被误标为「船」,且每张狗的图像有相同的概率被误标为「猫」(或「船」)。至于为何噪声转移矩阵是处理标签噪声的重要工具,从如下等式可见一斑:
。
其表示,在给定噪声转移矩阵时,仅需带噪数据的后验
便可估计其原始数据的后验
。在 LNRL 问题中,噪声转移矩阵既可用于构建满足统计一致性的学习算法,也可用于从对噪声数据进行清洗,删除潜在的误标注数据。
目标层面:从目标函数的角度,LNRL 关注如何通过修正损失函数
设计对于(未知)无噪数据分布满足一致性的学习算法。宏观上,在带噪数据下使用修正后的损失函数
,如果计算的风险(带噪数据分布下损失函数的均值)与(未知)干净数据下计算的风险一致,则可以在仅给定噪声数据的情况下优化得到鲁棒分类器
的收敛性可根据 PAC 学习理论给出:若校正后的损失函数
针对 LNRL 问题无偏,则有至少
的概率使得
成立,其中
表示干净数据分布的贝叶斯风险,
为 Lipschitz 常数,函数
单调递增,且
。由于神经网络的偏差项
近似等于 0,因此当数据规模足够大
,上界总体趋近于 0。由此可知,合理校正的损失函数可以仅从噪声数据分布中学习对标签噪声鲁棒的分类器,经典方法请参考文献 [3]。
优化层面:优化层面 LNRL 问题关注优化算法的动态过程。虽然过参数化特性使得深度学习可以拟合噪声数据(甚至完全随机标注的数据),神经网络在训练早期仍会尝试从数据中学习有意义的模式。以单隐层神经网络为例,在 LNRL 下使用随机梯度下降优化有如下结论:假设训练样本呈簇状分布(簇中心矩阵
)。当噪声率小于阈值,随机梯度下降进行
次迭代后满足
。
其中训练样本
离至少一个簇中心距离小于
衡量簇间的相似性,为
定常数。该定理验证网络模型在训练初期一定程度上对噪声鲁棒,意味着神经网络在自身的训练过程中可以对错误标签进行清洗。
方法分类
与理论分析对应,研究者将 LNRL 方法分为三大类(下图 6):
数据:利用噪声转移矩阵作为辅助信息,设计满足统计一致性的学习算法。当噪声转移矩阵未知,可将其作为可学习参数内嵌至神经网络,以端到端的形式与网络模型参数一起学习(Adaptation Layer);当噪声转移矩阵已知,可以直接用于对损失函数进行校正(Loss Correction);此外,噪声转移矩阵的估计、修正还可以结合领域知识或人的先验(Prior Knowledge);
目标函数:目标函数可以通过正则化项来约束(Regularization);重加权方法也是设计鲁棒学习算法的重要技术(Reweighting);此外,还可以根据标签噪声本身的性质或其他模型评价指标来设计优化目标(Redesigning);
优化:神经网络优先学习有意义的模式,并逐步拟合误标注数据(Memorization Effect)。因此,在迭代优化过程中,仅对损失值较小的样本进行反向梯度传播通常可以降低噪声标签的负面影响。此技术在 LNRL 问题下应用广泛,被称为小损耗样本选择。常见的方法有利用单一模型的自学习方法(Self-Training)以及通过多个模型相互合作的共同学习方法(Co-Training)。
图 6:已有 LNRL 方法的分类。
具体分类 - 数据
噪声转移矩阵描述噪声标签与真标签间的联系,是解决 LNRL 问题的经典技术。前沿方法通常使用前向 / 后向校正(Forward/Backward Correction)来保证算法的统计一致性和收敛性 [1]。
直观上,前向矫正对神经网络预测进行污染,污染后的模型可以直接用于对噪声数据进行拟合。由于噪声转移矩阵吸收了噪声的影响,底层的神经网络可以学习更加鲁棒的模式 / 特征。后向矫正对噪声标签进行修正,修正后的标签用于神经网络模型的训练。
前向 / 后向校正默认噪声转移矩阵已知或可以估计。噪声转移矩阵可以通过端到端的形式训练(Adaptation Layer)或通过两步法进行估计(Loss Correction)。
图 7:Adaptation Layer 相关方法的架构。
具体分类 - 目标
目标函数的修改方式有很多,例如正则(Regularization)、重加权(Reweighting)以及重新设计的优化目标(Redesigning)。
图 8:满足对称条件的损失函数。
具体分类 - 优化
神经网络的记忆特性(Memorization Effect)对于 LNRL 问题有着重要的意义。总的来讲,神经网络模型优先学习语义信息较强的模式,并逐步拟合训练数据中的噪声 [5](下图 9)。该现象表明训练过程中神经网络的预测结果可以帮助噪声标签清洗,通常称为小损耗样本选择:模型「学习」了一个样本或其模式,意味着该数据的损失值较小。因此,在优化过程中仅使用损失值较小的样本(潜在的正确标注数据)对模型进行训练可以有效降低标签噪声的负面影响。
图 9:MNIST 数据集中各种标签噪声下的实验结果。实 / 虚线分别表示训练 / 测试精度曲线。
常见的方法有利用单一模型的自学习方法(Self-Training)以及通过多个模型相互合作的共同学习方法(Co-Training)(下图 10)。
图 10:Self-Training(M-Net)和 Co-Training(Co-teaching)对比。
未来工作
数据集:大部分文章通过 MNIST 或 CIFAR-10 上人工生成的噪声数据来验证自己算法是否有效,然而在真实情况下噪声的性质更加复杂。Tong Xiao 等人使用淘宝以及亚马逊的商品数据构建 Clothing1M 数据集,其中的数据标签根据商品的元信息自动获取,超过 40% 的标签有误。LNRL 相关文章近年来广泛使用 Clothing1M 数据集验证新算法在真实场景下的表现,然而实际上很多文章为了刷榜使用了一些 trick,因此这些算法在真实场景下的表现并不完全可信。最近,Lu Jiang 等人发布 web-label noise 数据集,其数据噪声程度可控,因此可以更好地验证新算法在各种噪声规模下的表现。此外已有数据集主要关注图像分类,然而自然语言 / 语音等领域 LNRL 问题也广泛存在。针对相关任务设计噪声标签数据集也是值得考虑的一个问题。
实例相关噪声:已有的理论工作通常会假设噪声的生成过程仅与潜在的真标签有关,而与实例特征本身无关。直观来讲,低质量 / 存在歧义的数据更容易被误标,也就是说标签噪声的生成过程可能与数据特征有关,即
。如何对这些情形进行问题建模在 LNRL 领域尚无定论,且在没有合理假设的情况下实例相关标签噪声问题无解。已有工作假设 i. 靠近潜在最优决策边界的样本容易被误标;ii. 数据标签噪声率有上界;iii. 噪声生成过程仅与数据特征的某些模式相关。此外,辅助数据、主动学习、以及先验知识也可以帮助神经网络克服实例相关标签噪声的影响。
数据噪声:还有许多其他相关领域与噪声有关,例如特征噪声以及数据分布噪声。此外,排序问题、相似性问题、对抗学习、图卷积、强化学习中的数据噪声也广泛存在值得探索。值得一提的是,对抗学习的框架下探讨标签噪声问题近年有许多开创性的工作 [6]。
历史发展
标签噪声问题的相关工作可以追溯到 1988 年。线性阈值函数、决策树、感知机等传统机器学习算法在标签噪声问题下均受到关注和研究。起步阶段,人们通常关注二分类问题并假设标签噪声完全随机(与真标签无关)。
2013 年左右,Natarajan 等人提出标签噪声问题风险一致性的相关理论保证;Scott 等人则将随机噪声扩展到类相关情形。这一阶段,研究人员提出大量标签噪声相关的统计学习方法。
2015 年后,人们的关注点逐渐从统计学习方法转移到深度学习领域。LNRL 早期的工作有 Sukhbaatar 等人关于神经网络噪声自适应层的研究,Reed 等人关于软标签和 Bootstrapping 的相关工作,以及 Azadi 等人的组范数正则方法。此后,诸如前向 / 后向矫正、贝叶斯模型、元学习、重加权等方法发展迅速,被广泛地应用于 LNRL 领域的前沿工作。
2018 年,随着人们对神经网络训练行为的研究逐渐深入,利用网络记忆特性的方法取得了巨大的成功。
今天,LNRL 各类方法的研究仍在蓬勃发展,相关技术正在走向成熟。
相关综述
参考文献
[1] Patrini, G., Rozza, A., Krishna Menon, A., Nock, R., & Qu, L. Making deep neural networks robust to label noise: A loss correction approach. In CVPR, 2017. https://arxiv.org/pdf/1609.03683.pdf
[2] Liu, T., & Tao, D. Classification with noisy labels by importance reweighting. IEEE TPAMI, 2015, 38(3), 447-461.https://arxiv.org/pdf/1411.7718.pdf
[3] Yu, X., Liu, T., Gong, M., & Tao, D. Learning with biased complementary labels. In ECCV, 2018. https://arxiv.org/pdf/1711.09535.pdf
[4] Charoenphakdee, N., Lee, J., & Sugiyama, M. On symmetric losses for learning from corrupted labels. In ICML, 2019. PMLR. https://arxiv.org/pdf/1901.09314.pdf
[5]Arpit, D., Jastrzębski, S., Ballas, N., Krueger, D., Bengio, E., Kanwal, M. S., & Lacoste-Julien, S. A closer look at memorization in deep networks. In ICML, 2017. http://proceddings.mlr.press/v70/arpit17a/arpit17a.pdf
[6] Zhang, J., Xu, X., Han, B., Niu, G., Cui, L., Sugiyama, M., & Kankanhalli, M. Attacks which do not kill training make adversarial learning stronger. In ICML, 2020.https://arxiv.org/pdf/2002.11242.pdf
[7] Frénay, B., & Verleysen, M. Classification in the presence of label noise: a survey. IEEE TNNLS, 25(5), 845869, 2013. https://romisatriawahono.net/lecture/rm/survey/machine%20learning/Frenay%20-%20Classification%20in%20the%20Presence%20of%20Label%20Noise%20-%202014.pdf
[8] Algan, G., & Ulusoy, I. Image classification with deep learning in the presence of noisy labels: A survey. KBS, 2021. https://arxiv.org/pdf/1912.05170.pdf
[9] Karimi, D., Dou, H., Warfield, S. K., & Gholipour, A. Deep learning with noisy labels: Exploring techniques and remedies in medical image analysis. MIA, 2020. https://arxiv.org/pdf/1912.02911.pdf
[10] Song, H., Kim, M., Park. D., & Lee, J. G. Learning from noisy labels with deep neural networks: A survey. 2020. https://arxiv.org/pdf/2007.08199.pdf
作者介绍
领域代表作
亚马逊云科技线上黑客松2021
这是一场志同道合的磨练,这是一场高手云集的组团竞技。秀脑洞、玩创意,3月26日至5月31日,实战的舞台为你开启,「亚马逊云科技线上黑客松2021」等你来战!
为了鼓励开发者的参与和创新,本次大赛为参赛者准备了丰厚的奖品,在一、二、三等奖之外,还特设prActIcal奖、creAtIve奖、锦鲤极客奖、阳光普照奖,成功提交作品的团队均可获赠奖品。
识别二维码,立即报名参赛。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com