前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >十年对数据集偏差的斗争:我们达到目标了吗?

十年对数据集偏差的斗争:我们达到目标了吗?

作者头像
DrugAI
发布2024-04-19 18:43:21
840
发布2024-04-19 18:43:21
举报
文章被收录于专栏:DrugAIDrugAI

今天为大家介绍的是来自Kaiming He团队的一篇论文。在这个有着大规模、多样化且希望较少偏差的数据集以及更加强大的神经网络架构的新时代,作者重新审视了十年前Torralba和Efros提出的“数据集分类”实验。

作者的研究基于一个称之为数据集分类的虚构任务,“猜猜这个数据集”实验(图1)。具体来说,从几个数据集中随机抽取大量(例如,高达一百万)图片,并在它们的联合数据集上训练一个神经网络,来分类一张图片是从哪个数据集中取得的。该数据集假定是从互联网上收集的最多样化、最大且未经策划的数据集中挑选的。例如作者研究的一个典型组合被称为“YCD”,包括来自YFCC、CC和DataComp的图片,呈现一个三向数据集分类问题。令人惊讶的是,现代神经网络可以在这类数据集分类任务上取得出色的准确率。在上述对人类而言具有挑战性的YCD集合(图1)上训练的模型,在保留的验证数据上可以达到超过84%的分类准确率,相比之下,随机猜测的准确率为33.3%。这一观察结果非常稳健,跨越了大量不同的数据集组合和不同代的架构,在大多数情况下都能达到非常高的准确率(例如,超过80%)。

图 1

有趣的是,对于这样一个数据集分类任务,作者发现一系列结果,这些结果与语义分类任务(例如,对象分类)中观察到的结果相似。例如更多样本上训练数据集分类器,或使用更强的数据增强,可以提高在保留的验证数据上的准确率,尽管训练任务变得更加困难。这与语义分类任务中的泛化行为相似。这种行为表明,神经网络试图发现数据集特定的模式来解决数据集分类任务。进一步的实验表明,通过分类数据集学到的表示包含一些可转移到图像分类任务的语义信息。作为对比,如果不同数据集的样本是无偏见地从同一分布中抽取的,模型则不应该发现任何数据集特定的偏差。为了检验这一点,作者研究了一个伪数据集分类任务,其中不同的“数据集”是从单一数据集中均匀采样的。最后观察到这个分类任务很快变得难以处理,因为分类器处理这个任务的唯一方式是记住每一个实例及其子集身份。结果,增加样本数量或使用更强的数据增强,在实验中使记忆变得更加困难或不可行。

更令人惊讶的是即便是自监督学习模型也能够捕捉到不同数据集之间的某些偏差。具体来说,作者在不同数据集的联合上预训练一个自监督模型,不使用任何数据集身份标签。然后冻结预训练的表示,仅训练一个线性分类器来执行数据集分类任务。尽管这个线性层是唯一通过数据集身份标签调整的层,模型仍能达到令人惊讶的高准确率(例如,78%)进行数据集分类。这种迁移学习行为与典型自监督学习方法(例如,图像分类)的行为类似。

总结来说现代神经网络令人惊讶地有能力从不同数据集中发现隐藏的偏差。即使对于非常大、多样化、较少策划且假设较少偏见的现代数据集,这一观察也成立。神经网络通过发现可泛化的模式(即,从训练数据到验证数据,或到下游任务的可泛化)来解决这个任务,展现出与语义分类任务中观察到的行为类似的行为。与十年前Torralba和Efros论文中的“猜猜这个数据集”游戏相比,今天能力强大的神经网络让这个游戏甚至变得更容易了。从这个意义上说,涉及数据集偏差的问题并没有得到缓解。作者希望该发现能激发社区关于数据集偏差与持续改进模型之间关系的新讨论。

数据集分类

数据集分类任务被定义得像一个图像分类任务,但每个数据集形成自己的类别。它创造了一个N向分类问题,其中N是数据集的数量。分类准确率在一个由这些数据集中随机抽取的保留图像组成的验证集上进行评估。

表 1

作者有意选择可以使数据集分类任务具有挑战性的数据集,并基于以下考虑选择数据集:(1) 它们在规模上是大的。较小的数据集可能覆盖的概念范围较窄,且可能没有足够的训练图像进行数据集分类。(2) 它们是通用和多样化的。避免选择关于特定场景或特定元类别物体的数据集。(3) 它们是以预训练可泛化表示或已经被用于这一目的的意图收集的。基于这些标准,作者选择了表1中列出的数据集。尽管这些数据集被假设为更加多样化,但它们的收集过程中仍存在潜在贡献于各自偏差的差异。例如,它们的来源不同:Flickr是一个用户上传和分享照片的网站,Wikipedia是一个专注于知识和信息的网站,Common Crawl是一个爬取网络数据的组织,而更广泛的互联网涉及的内容范围比这些特定网站更一般。此外,数据收集过程中涉及了不同级别的方法:例如,LAION是通过逆向工程CLIP模型并复制其零样本准确率来收集的。尽管意识到这些潜在的偏差,但神经网络捕捉它们的出色能力超出了预期。

表 2

作者在这项数据集分类任务中观察到神经网络取得的惊人高准确率。这一观察结果在不同设置中都很稳健。默认情况下,模型分别从每个数据集随机抽取100万和1万张图片作为训练和验证集,按照监督训练的常规做法训练一个ConvNeXt-T模型。按照在实验中观察到以下行为:跨数据集组合观察到高准确率。在表2中,我们列举了从表1中列出的6个数据集中选择3个的所有20种可能组合。总的来说,在所有情况下,网络都实现了超过62%的数据集分类准确率;并且在所有20种组合中的16种中,甚至实现了超过80%的准确率。在YFCC、CC和ImageNet的组合中,它实现了最高的92.7%的准确率。在表2(底部面板)中,我们研究了涉及3、4、5和所有6个数据集的组合。如预期的那样,使用更多的数据集导致任务变得更困难,这反映在准确率的下降上。然而,当包括所有6个数据集时,网络仍然实现了69.2%的准确率。

表 3

在表3中作者报告了使用不同代表性模型架构的YCD组合的结果。观察到所有架构都能出色地解决这个任务:5种网络中有4种实现了超过80%的出色准确率,甚至现在已经是经典的AlexNet也达到了强劲的77.8%的结果。这个结果显示,神经网络非常擅长捕捉数据集偏差,无论它们的具体架构如何。

图 2

默认情况下,作者使用ConvNeXt-Tiny模型。这里的“Tiny”是相对于ViT大小的现代定义,与ResNet-50相当。在图2中,作者报告了通过改变宽度和深度得到的不同大小模型的结果。令人惊讶的是,即使是非常小的模型也可以在数据集分类任务中取得强劲的准确率。这表明神经网络结构在学习底层数据集偏差方面非常有效。数据集分类并不需要大量的参数,这常常被认为是深度学习在常规视觉识别任务中成功的原因。作者还观察到,更大的模型表现得越来越好,尽管回报逐渐减少。这与常规视觉识别任务的观察结果一致。

图 3

数据集分类准确率会从更多的训练数据中获益。作者改变用于YCD分类的训练图像数量,并在图3中展示结果。有趣的是,用更多数据训练的模型实现了更高的验证准确率。这一趋势在现代的ConvNeXt和经典的AlexNet中都一致观察到。虽然这种行为在语义分类任务中看起来很自然,但可以注意到这在数据集分类中并不一定成立:实际上,如果模型在努力记住训练数据,它们在验证数据上的泛化表现可能会下降。观察到的行为——即,更多的训练数据提高了验证准确率——表明模型在学习某些可泛化到未见数据的语义模式,而不是记住和过拟合训练数据。

表 4

数据集分类准确率会从数据增强中获益。数据增强预期会产生类似于增加数据集大小的效果。作者默认的训练设置使用随机裁剪、RandAug、MixUp和CutMix作为数据增强方法。表4显示了使用减少的或无数据增强的结果。添加数据增强使得记忆训练图像变得更加困难。然而,使用更强的数据增强一致地提高了数据集分类准确率。无论每个数据集的训练图像数量如何,这种行为基本上保持一致。同样,这种行为与在语义分类任务中观察到的行为相呼应,表明数据集分类不是通过记忆来实现的,而是通过学习从训练集到未见验证集可泛化的模式。

分析模型行为

图 4

表 5

作者假设存在一种可能性,即高准确率仅仅是由于低级特征,这些特征对人类不太明显,但神经网络可以轻易识别。潜在的特征可能涉及JPEG压缩伪影和颜色量化伪影。作者设计了一系列实验来帮助我们排除这种可能性。作者考虑四种类型的图像损坏:(i)颜色抖动,(ii)添加具有固定标准差(std)的高斯噪声;(iii)通过固定大小的高斯核模糊图像;以及(iv)降低图像分辨率。图4展示了每种损坏的一些示例图像。表5显示了每种图像损坏对数据集分类结果的影响。如预期的那样,损坏降低了分类准确率,因为训练集和验证集都受到了影响。尽管有所退化,尤其是当损坏程度较弱时,仍然可以实现强大的分类准确率。引入这些不同类型的损坏应该有效地破坏低级特征,如JPEG或颜色量化伪影。结果暗示模型试图解决数据集分类任务,而不仅仅是使用低级偏见。

表 6

作者展示了用于数据集分类的模型在表现上类似于用于语义分类任务的模型(图3和表4),因为它们展示了泛化行为。作者考虑一个伪数据集分类任务。在这个场景中,作者创建多个伪数据集,所有这些伪数据集都是从同一个源数据集中不重复抽样得到的。作者期望这个过程能提供真正无偏的多个伪数据集。表6报告了一个模型在这个伪数据集分类任务中的训练准确率。当任务相对简单时,模型达到了100%的训练准确率;然而,当任务变得更困难时(更多的训练图像或更强的增强),模型未能收敛。这种现象意味着模型试图记住个别图像及其标签来完成这个伪数据集分类任务。因为这些伪数据集中的图像是无偏的,所以不应该有可以发现的共享模式来区分这些不同的集合。结果,模型被迫记住图像及其随机标签。但当给定更多的训练图像或更强的增强时,记忆变得更加困难。这种现象与在真实数据集分类任务中观察到的不同。这再次表明,模型试图在真实数据集分类任务中捕捉共享的、可泛化的模式。为伪数据集分类任务训练的模型不会泛化到验证数据。

结论

作者在现代神经网络和大规模数据集的背景下重新审视了数据集分类问题。可以观察到,数据集偏差仍然可以被现代神经网络轻易捕获。这一现象在模型、数据集组合和许多其他设置中都很稳健。值得指出的是,神经网络捕获的偏差的具体形式仍然不甚清楚。作者发现这种偏差可能包含一些可泛化和可转移的模式,并且可能不容易被人类察觉。作者希望将来会有更多的努力投入到这个问题上,这也将帮助构建未来偏差更小的数据集。

编译 | 曾全晨

审稿 | 王建民

参考资料

Liu, Z., & He, K. (2024). A Decade's Battle on Dataset Bias: Are We There Yet?. arXiv preprint arXiv:2403.08632.

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-04-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档