前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >深度学习中的标签噪声处理:WANN方法与鲁棒损失函数的比较研究 !

深度学习中的标签噪声处理:WANN方法与鲁棒损失函数的比较研究 !

作者头像
未来先知
发布2024-09-26 10:30:45
1040
发布2024-09-26 10:30:45
举报
文章被收录于专栏:未来先知

深度神经网络的性能随着数据集大小和标签质量而成正比,因此,对于构建强大且低成本的系统来说,低质量数据标签的有效标注的规避至关重要。现有的处理标签噪声策略受限于计算复杂度和应用依赖性。 在本研究中,作者提出了一种称为WANN的加权自适应最近邻方法,它依赖于从基础模型中获得的自主监督特征表示。 为了指导加权投票方案,作者引入了一个可靠性分数,它度量数据标签正确的可能性。WANN在各种大小和噪声类型及严重程度的多样化数据集上超越了参考方法,包括使用鲁棒损失函数的线性层训练的参考方法,如自适应最近邻(Adaptive-NN)和固定-NN。WANN在处理不平衡数据时的泛化能力优于自适应最近邻(Adaptive-NN)和固定-NN。 此外,提出的加权方案在噪声标签下提高了有监督降维的效率。这使得具有10倍和100倍较小图像表示的分类性能显著提高,从而最大程度地减少了延迟和存储需求。 作者的方法,注重效率和可解释性,成为克服深度神经网络训练固有限制的简单、稳健的解决方案。 代码已在GitHub上提供:github.com/francescodisalvo05/wann-noisy-labels。

1 Introduction

深度神经网络在众多领域取得了显著的成果,这要归功于不断增长的计算能力。这一进步使得可以开发出更深层次、具有更强大学习能力的架构。然而,这些高度参数化的架构通常被认为需要大量数据才能有效地泛化。收集和标注这样的大型数据集既耗资又耗时,可能会引入机器和人为错误。事实上,真实世界数据集中损坏标签的比例范围从8-38.5%(Song等人,2022年)。尽管最近无监督和半监督方法在研究社区中受到了广泛关注,但受监督方法仍然广泛应用,因为它们的性能通常更高。因此,错误的标签给深度模型带来了巨大的挑战,特别是在安全关键领域,例如医疗保健中,它们倾向于记忆标签噪声,从而严重影响了泛化能力。正如张等人(2021年)所展示的那样,这个问题正在阻碍人工智能系统在安全关键领域的应用。

因此,提高深度模型对噪声标签的鲁棒性逐渐引起了关注,这导致了五个不同的研究方向(Song等人,2022年):鲁棒架构、鲁棒正则化、鲁棒损失函数、损失调整和样本选择。然而,正如朱等人(2022年)所述,所有这些方法都涉及学习过程,并在定义上具有将它们泛化到不同数据集或 varying噪声率等方面的限制。

针对这些局限性和由嘈杂标签带来的挑战,作者利用从大型预训练模型(也称为“基础模型”)获得的特征表示进行处理,这些模型广泛应用于图像分类、语义分割等任务。虽然最初这些模型的重点主要在于文本和自然图像,但是目前正专注于开发针对特定领域的开源基础模型,如医疗健康,从而可以轻易地将这一范式应用到各种应用中。具体来说,基于图像的大的基础模型通常以自监督方式进行训练,例如,通过对比学习(Chen等人,2020年),在嵌入空间中近似表示相似的目标,并较远离表示语义上不同的目标。因此,图像在嵌入空间中的位置可以与标签一样,甚至更有信息量。尽管在处理嘈杂标签的文献中,嵌入空间方法并非新概念,但通常关注噪音检测,可以通过在线或离线方法实现。

然而,由于现代嵌入空间的表示能力(Radford等人,2021年;Oquab等人,2023年),作者有理由相信,也可以通过构建简单的-NN方法来提供稳健的预测。此类方法不仅提供了计算效率,还提高了可解释性。此外,对超参数的依赖程度较低,可以增强泛化能力。因此,由于其简化和效率,它能够降低深度网络训练的一些限制。

在本文中,作者提出了一种加权自适应最近邻(WANN)方法,如图1所示,该方法处理从预训练基础模型中提取的图像嵌入。引入的加权自适应投票方案解决了大规模、有限且不平衡嘈杂数据集所面临的挑战。作者的贡献如下:

  • 提出了一个可靠性分数(η)来衡量标签的正确性。这个评分指导了WANN的构建,该方法通过适应性确定训练示例中的调整系数,在嵌入空间中确定测试样本的邻域,并加权。
  • 进行了大量的定量实验,确认了WANN在各种数据集和噪声水平下(包括有限和严重不平衡的噪声数据场景)的整体鲁棒性优于参考方法(ANN、固定k-NN、鲁棒损失函数)。
  • 提出了一个依赖特定可靠评分进行高质量投影的过滤LDA(FLDA)方法。FLDA通过过滤检测到的噪声样本来提高降维的鲁棒性,并使用10倍和100倍更小的图像嵌入来提高分类性能。

因此,通过轻量级嵌入和简单而有效的分类算法,作者证明了在嵌入空间中高效工作可能构成一种潜在的范式转变,增加效率、鲁棒性同时解决与深层神经网络训练相关的一些关键限制。

2 Related works

近年来,从噪声标签处进行鲁棒学习的关注度越来越大,目前已有多种基于深度学习的模型可供选用(Song等人,2022)。有效且实用的方法包括多网络学习,其中在训练过程中会剔除噪声样本。样本选择可能受到导师网络(Jiang等人,2018)或同伴网络(Han等人,2018;Yu等人,2019;Wei等人,2020)的引导。然而,由于它们的计算复杂性,这些模型通常缺乏在不同数据集或噪声设置下的泛化性。一些旨在处理噪声标签的轻量级技术被归类为鲁棒损失函数。尽管交叉熵(CE)容易过拟合到错误的标签,但均方误差(MAE)在理论上已被保证是无噪声容忍的。然而,它在难以领域中存在严重的欠拟合问题。为了解决这个问题并提高其泛化性,作者提出了通用的交叉熵(GCE),它是对MAE和CE的泛化。尽管Wang等人(2019)提出了对称交叉熵,但Zhou等人(2021)通过使用不对称损失函数克服了对称条件。

一些state-of-the-art方法包括早期学习正则化(Liu等人,2020),它通过正则化试图防止错误标签的记忆,以及活性被动损失(APL)(Ma等人,2020),它结合两种鲁棒损失来平衡过拟合和欠拟合。最近,活性负损失(ANL)(Ye等人,2023)用正规化负损失函数替换了APL中的被动损失(ANL是APL的简称)。然而,尽管与其他多种网络方法相比,它们的计算复杂性相对较低,但它们仍然存在训练神经网络的挑战,包括需要庞大的数据集、缺乏可解释性、计算复杂性、超参数依赖和错误标签倾向的过拟合。

除了基于深度学习的原生方法之外,某些传统机器学习方法由于其设计而具有鲁棒性。特别是基于邻近的方法近期开始受到广泛关注,因为它们在处理噪声训练观测上的实用价值(Reeve和Kaban,2019;Bahri等人,2020;Kong等人,2020)。尽管所提出的在线邻近方法可以增强带有噪声标签的DNN的鲁棒性,但它并未解决DNN的基本问题,这些问题包括缺乏解释性、数据效率和泛化性。一项与之相关的先驱工作已经强调了基于邻近的训练免清洗策略的潜力,该策略基于CLIP的嵌入。与这一研究方向一致,作者旨在强调邻近在分类任务中的内在鲁棒性和可解释性优势(参见图2)。这通过定义每个测试观察的可靠性评分和采用自适应邻域来进一步加强。

3 Method

本文提出了一种基于图像嵌入的 -NN 搜索方法,用于缓解噪声标签的影响。该方法的核心部分是基于从预训练基础模型中提取的图像嵌入进行自适应 -NN 搜索,使用欧几里得距离作为参考距离度量。作者使用 DINOv2(Oquab等人,2023)大型 Backbone 作为基础模型,其具有14x14的patch,生成图像嵌入大小为1024。DINOv2 采用自监督方式在142M图像上进行训练,并且在第4.1节中进一步阐明了 Backbone 的选择。为了提高计算效率,作者根据Nakata等人的方法预生成了所有评估数据集的嵌入数据库。

标签可靠性评分虽然 -NN 在设计上对噪声标签具有鲁棒性,但在严重的噪声条件下其有效性可能会降低。为了解决这个挑战,引入权重方案变得有用,旨在减小噪声标签的影响。直观地,一个合适的权重方案应该为可能正确标签的样本分配较高的权重,为可能被错误标记的样本分配较低的权重。在这种情况下,作者引入了“标签可靠性”的概念,该概念建立在Sun和Huang(2010)的工作基础上。沿袭他们方法,他们为每个训练观测确定了一个最优的值,作者确定与相关标签的可靠性(即质量),指导后续的权重方案。对于给定的训练观测及其相关标签, 定义为正确 -NN 分类所必需的最小训练样本(邻居大小)的倒数。为了提高可读性,作者将 表示为函数,其中表示训练数据集:

4 Experiments and results

首先,在第四节1部分,作者阐述了选择DINOv2大型backbone(Oquab等人,2023)的原因。接下来,在第四节2 - 4.5部分,作者评估了WANN在具有噪声的真实世界、有限数据和医学数据上的鲁棒性损失函数。在第四节6部分,作者在严重不平衡数据集的大背景下评估了加权自适应邻域的鲁棒性。作者在第四节7部分进一步展示了提出的Filtered LDA(FLDA)方法的有效性。最后,在第四节8部分,作者对噪声数据集上作者方法的可解释性优势进行了定性探索。值得注意的是,作者在定量实验中使用的所有数据集都不是DINOv2的训练数据,如Oquab等人(2023)在表15中详细阐述的那样。

Backbone

为了实现令人满意的 近邻性能,必须具有高质量的特性表示,以确保相似物体的紧密接近。为了评估这一点,作者首先比较了在 ImageNet-1k 上预训练的 ResNet501 和 ResNet1012在视觉 Transformer 领域的自我监督预训练方法,包括 He 等人(2022 年)的 MAE,Radford 等人(2021 年)的 CLIP 预训练(Base5 和 Large6),以及 Oquab 等人(2023 年)的 DINOv2 预训练(Base7 和 Large8)。所有预训练模型均来自 HuggingFace(timm)。作者报告了 WANN 在 CIFAR-10 和 CIFAR-100上的分类准确率。

参考

[1].An Embedding is Worth a Thousand Noisy Labels.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未来先知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 Related works
  • 3 Method
  • 4 Experiments and results
  • Backbone
  • 参考
相关产品与服务
标签
标签(Tag)是腾讯云推出的云资源管理工具,您可从不同维度对具有相同特征的云资源进行分类、搜索和聚合,从而轻松管理云上资源。 标签是由标签键和标签值共同组成,您可以为云资源创建和绑定标签
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档