

提出了AD-DINOv3,这是首个将DINOv3适配于零样本异常检测的框架,填补了自监督视觉编码器与异常检测任务之间的空白。
引入了一种带有轻量级适配器的跨模态对比学习策略,以充分利用DINOv3的层次化表征进行零样本异常检测。
设计了一种新颖的异常感知校准模块,该模块能显式引导CLS标记聚焦于异常区域,减轻其对通用对象语义的偏向。
在八个工业与医疗基准数据集上超越或媲美现有最先进方法,证明了其作为通用零样本异常检测框架的有效性。
架构与方法

我们采用DINOv3作为AD-DINOv3的视觉主干网络。如图2所示,图像分支会提取图像块标记和一个CLS标记,这些标记通过轻量级适配器与异常感知校准模块共同进行优化处理。
异常感知校准模块(AACM)在掩码监督的引导下,显式地将CLS标记的注意力聚焦于异常图像块区域,使其全局关注点从自然图像预训练中常见的通用前景对象转向异常特征。与此同时,文本分支通过对正常与异常提示语(例如“一张[状态][类别]的照片”)进行编码,并同样经过适配器优化以更好地适应目标领域。在异常定位过程中,系统通过比照图像块标记与提示嵌入向量来生成像素级异常热力图。
实现细节
在我们的实验中,默认采用Meta AI发布的ViT-L/16架构预训练DINOv3作为图像编码器,同时使用预训练CLIP(OpenAI)的文本编码器生成文本嵌入。所有输入图像在训练和推理阶段均统一调整为512×512分辨率。DINOv3主干网络包含24个Transformer层,我们将其划分为四个阶段,分别从第6、12、18和24层提取图像块嵌入。模型训练共进行10个周期,批处理大小设置为64,使用Adam优化器进行优化,初始学习率设定为1×10⁻⁴。

实验结果

