在 Mask 图像建模(MIM)中,存在两种主要方法:像素MIM和潜在MIM,它们分别利用不同的重建目标,即原始像素和潜在表示。 像素MIM倾向于捕捉低级视觉细节,如颜色和纹理,而潜在MIM则专注于目标的语义。然而,这些方法各自的优势也可能导致在依赖特定视觉特征 Level 的任务中性能不佳。 为了解决这一局限性,作者提出了PiLaMIM,这是一个统一的框架,结合了像素MIM和潜在MIM的优势。 作者的方法使用单个编码器以及两个不同的解码器:一个用于预测像素值,另一个用于潜在表示,以确保同时捕捉高级和低级视觉特征。 作者还将[CLS] Token 整合到重建过程中,以聚合全局上下文,使模型能够捕捉更多的语义信息。 广泛的实验表明,PiLaMIM在大多数情况下优于MAE、I-JEPA和BootMAE等关键 Baseline ,证明了其在提取更丰富视觉表示方面的有效性。 代码可在https://github.com/joonmy/PiLaMIM.git上找到。
随着科技的飞速发展,人工智能(AI)已经成为一个备受关注的研究领域。近年来,深度学习在图像识别、自然语言处理和自动驾驶等领域取得了显著的成果。然而,尽管这些进展令人鼓舞,但AI的可靠性和安全性仍然是亟待解决的问题。本论文旨在探讨深度学习模型在复杂环境下的鲁棒性和安全性问题,并提出相应的解决方案。论文结构如下:首先,对深度学习的基本原理和相关技术进行综述;其次,分析当前深度学习模型在鲁棒性和安全性方面存在的问题;然后,提出一种基于对抗训练的鲁棒性增强方法;最后,通过实验验证所提方法的有效性。
Mask 图像建模(MIM)已被证明是视觉Transformer(ViT)[7]的一种有效的预训练方法,在各种下游任务中取得了显著的成果。MIM涉及对图像的显著部分进行 Mask ,并训练模型仅根据可见上下文预测 Mask 区域,使用各种重建目标,如像素、潜在表示、离散视觉 Token [3, 16]和手工特征[20]。在预训练中,重建目标在决定表征质量方面发挥着关键作用,与某些下游任务的高性能直接相关。
特别是在使用像素(Pixel MIM)和潜在表示(Latent MIM)作为重建目标进行预训练时,两种方法学习到的视觉表示往往具有对比鲜明的特征[1, 21]。Pixel MIM侧重于低级细节,如颜色、边缘和纹理,因此在需要精细视觉信息,如物体计数和深度预测的任务中特别有效。相比之下,Latent MIM能够捕捉高级语义,擅长图像分类等任务,在这些任务中,对物体的抽象和语义理解更为重要。
然而,每种MIM方法的这些专门优势也可以被视为明显的弱点:(i)像素MIM由于强调低级细节,在捕捉高级语义方面受到限制。这导致在需要更深层次语义理解的任务上表现较差,尤其是在没有第38届神经信息处理系统会议(NeurIPS 2024)的情况下。
微调。(i)另一方面,潜在MIM使用潜在表示作为学习目标,其中像素细节可能被去除。因此,它在依赖于低级细节的任务中往往表现不如Pixel MIM[1, 21]。这些局限性表明,Pixel MIM和潜在MIM单独使用都不是完全最优的,但它们的优点可以互补彼此在理解视觉上下文方面的不足。这为通过结合预训练ViT[7]中的MIM和重建目标,以实现更丰富的视觉表示提供了机会。
基于这些观察,作者将Pixel MIM和Latent MIM方法整合到一个统一的框架中,称为PiLaMIM,该框架互补每种方法,并使视觉表示更加丰富。这种结构采用了一个共享的上下文编码器以及两个不同的解码器,每个解码器都服务于不同的目的:一个用于重建像素值,另一个专注于预测潜在表示。此外,作者通过在过程中融入[CLS] Token 来增强潜在表示的预测,遵循iBOT[25]。包含[CLS] Token 至关重要,因为它聚合了整个图像的全局上下文,鼓励模型超越局部块,捕获更多抽象、语义丰富的信息[16, 25]。
为了强调捕捉高级和低级视觉特征的重要性,作者设计了两个不同类别的实验:
(一)依赖高级语义进行图像分类的任务,使用了ImageNet-1K[17]、CIFAR10[13]、CIFAR100[13]、iNaturalist2021[11]和Places365[24];
(二)依赖于低级细节的目标计数和深度预测任务,使用了Clevr/Count[12]和Clevr/Dist[12]。
通过实验,作者发现PiLaMIM在Pixel MIM和Latent MIM领域内领先的方法MAE[10]和I-JEPA[1]之上始终表现出色。此外,PiLaMIM的表现优于BootMAE[6],后者也试图整合两种MIM方法。这些结果证明了作者的方法在有效捕捉高级和低级视觉特征方面,能够提取更丰富的视觉表征。此外,作者发现仅仅在重建过程中利用[CLs] Token 就能显著提高高级和低级视觉任务的表现。
在本文中,作者将详细介绍所采用的方法论,以支持作者的研究目标和假设。本研究方法基于以下几个关键步骤:
在整个研究过程中,作者将严格遵循科学研究的规范,确保方法的严谨性和可靠性。对于不确定的专业术语或表达,作者将通过 Query 或确认的方式,确保翻译的准确性和一致性。
为了捕捉高级和低级视觉特征,如图1所示,作者通过整合两个不同的解码器扩展了 Mask 自动编码器(MAE)[10]:一个像素解码器和一个潜在解码器。像素解码器负责在像素 Level 进行重建,而潜在解码器则专注于重建潜在 Level 的特征。作者方法中每个组件的具体细节将在以下章节中进行描述。
数据集。为了验证作者方法的有效性,作者按照[1]的分类进行了两项实验:一是图像分类任务,该任务需要使用ImageNet1K、CIFAR10、CIFAR100、iNaturalist2021和Places365数据集进行高级语义分析;二是目标计数和深度预测任务,该任务需要使用Clevr/Count和Clevr/Dist数据集进行低级细节分析。考虑到适当的数据规模,对于iNaturalist2021,作者使用了迷你版。由于作者在进行下游任务之前已经在ImageNet-1K上进行了预训练,因此作者将除ImageNet-1K之外的所有数据集称为域外数据。
实施细节。作者在ImageNet-1K上对 Baseline 和作者的方法进行了预训练,并通过使用ViT-Base架构进行线性检测来评估它们的性能。作者将作者的方法与MAE [10] 和 I-JEPA [1] 进行比较,MAE和I-JEPA分别是Pixel MIM和Latent MIM领域的突出方法,以及结合这两种方法的BootMAE [6]。I-JEPA预训练了600个epoch,MAE和BootMAE预训练了800个epoch,PiLaMIM则预训练了600和800个epoch。在线性检测过程中,I-JEPA和BootMAE都遵循各自论文的设置,使用了编码器最后一层的平均池化块token。对于MAE和PiLaMIM,作者使用了相同层的[CLS] token。然而,对于Clevr/Dist数据集,作者发现[CLs] token和平均池化块token之间存在着较大的性能差距,因此作者使用[CLS] token对评估进行了标准化。这些token经过一个线性层处理,该线性层前有批量归一化,并用于最终性能评估。所有线性检测都是在100个epoch内完成的,之后报告了最佳性能。详细的模型架构和训练设置在附录A.4和A.5中描述。
表1:高层和低层视觉任务性能比较。最高的性能以粗体突出显示。
主结果表1(a)展示了使用top-1准确率评估的高级任务图像分类的性能。正如之前所知[1],针对潜在表示的I-JEPA在大多数数据集上优于MAE。然而,PiLaMIM在除ImageNet-1K以外的所有数据集上都显著优于I-JEPA,即使在600个epoch之后,尤其是在跨领域数据上表现出色。具体来说,作者的方法在CIFAR10上达到了92.4%的准确率,在CIFAR100上达到了74.2%,分别比I-JEPA高出6.1%和8.1%。此外,PiLaMIM在大多数数据集上优于BootMAE,表明将[CLs] Token 集成增强了模型捕捉高级语义的能力。同时,表1(b)展示了低级任务(如物体计数和深度预测)的性能。与先前的研究[1]一致,针对原始像素的MAE在两项任务上都优于I-JEPA。值得注意的是,PiLaMIM在所有任务上都优于MAE,Clevr/Count上的准确率提高了7.2%,达到83.8%,Clevr/Dist上的准确率提高了2.8%,达到67.8%。此外,PiLaMIM的性能与BootMAE相当或略好,特别是在Clevr/Count上实现了更高的准确率,这证明了它在捕捉低级细节方面的有效性。作者在附录A.2中进行了额外的视觉分析,使用了t-SNE [19]。
这些结果表明,作者的方法针对像素和潜在表示,能够有效地捕捉高级和低级视觉特征。此外,在两类实验中观察到的显著性能提升表明,整合这两个层次的视觉特征的重要性,它们相互补充,从而产生更丰富的视觉表示。
作者进行了一项消融研究,以探讨[CLS] Token 的重要性。表2展示了在800个epoch预训练过程中,带有和不带有[CLS] Token 的PiLaMIM的线性检测性能。即使在没有[CLS] Token 的情况下,PiLaMIM在CIFAR100和Clevr/Count上仍优于MAE和IJEPA。然而,当包含[CLS] Token 时,性能在CIFAR100上提高了1.9%,在Clevr/Count上提高了1.2%。这表明仅仅使用[CLS] Token 就能在高级和低级视觉任务中提升性能,暗示着随着其更广泛的应用,有进一步改进的潜力。
表2:[CLs] Token 的消融研究。
本文通过对人工智能领域的深入研究,探讨了当前研究的热点和挑战。通过分析现有技术、理论及其应用,作者总结了以下结论:
总之,人工智能作为一门新兴学科,具有广阔的发展前景。在未来的发展中,作者需要不断探索、创新,以实现人工智能技术的突破和应用。
作者提出了PiLaMIM,这是一个结合了像素MIM和潜在MIM的统一框架,旨在有效捕捉高级和低级视觉特征。作者的实验表明,PiLaMIM在高级和低级视觉任务上始终优于现有方法,展示了集成这两种类型视觉特征的益处。值得注意的是,[CLS] Token 的引入进一步提升了两种视觉任务的表现,突显了它在更有效地捕捉这两种层次视觉特征中的重要性。这些发现表明,PiLaMIM能够提取丰富且稳健的视觉表示,使其非常适合广泛的视觉任务。
[1]. PiLaMIM: Toward Richer Visual Representations by Integrating Pixel and Latent Masked Image Modeling .