利用大视觉-语言模型（LVLM）来提高工业环境中异常检测和定位的效果！

AIGC 先锋科技

发布于 2025-01-13 12:26:15

7440

工业异常检测（IAD）在制造业过程的维护和质量控制中扮演着至关重要的角色。本文提出了一种新颖的方法——对比跨模态训练的视觉-语言异常检测（CLAD），利用大视觉-语言模型（LVLM）来提高工业环境中异常检测和定位的效果。 CLAD 通过对比学习将视觉和文本特征对齐到共享嵌入空间中，确保正常实例能够聚类在一起，而异常则被推开。通过在两个基准工业数据集 MVTec-AD 和 VisA 上进行广泛实验，作者证明了 CLAD 在图像级异常检测和像素级异常定位方面均优于现有最先进的方法。此外，作者还提供了消融研究和人工评估来验证作者方法中关键组件的重要性。作者的方法不仅达到了优异的性能，还能通过准确地定位异常提高解释性，使其成为解决实际工业应用问题的一项有前景的解决方案。

1 Introduction

工业异常检测(IAD)在确保制造过程的质量和安全方面起着至关重要的作用，特别是在依赖自动化系统进行生产的行业中。识别工业系统中的异常或故障行为——无论是机械设备故障、材料缺陷还是工艺偏差——对于减少停机时间、降低运营成本并保证产品质量至关重要。近年来，大型多模态视觉语言模型(LVLMs)的出现为提升IAD的技术水平提供了前景。LVLMs结合了视觉理解和自然语言处理的能力，在涉及图像和文本数据的任务中展示了强大的能力[1,2]。LVLMs的双模态特性使其特别适用于工业异常检测，因为在这种场景下需要同时理解视觉模式和文本描述（例如缺陷报告、产品手册和机器日志）。

尽管大语言模型（LVLMs）具有潜力，将其应用于工业异常检测（IAD）仍面临若干重大挑战。首先，当前的IAD方法通常仅依赖视觉特征或简单的异常评分，难以捕捉视觉缺陷与文本描述之间的复杂关系，导致在不同工业场景中的泛化能力有限。其次，许多现有方法在训练时需要大量的标注异常数据，而在实际工业环境中这些数据往往难以获得。此外，异常往往较为微妙，要求模型理解从原始视觉输入中可能不易察觉的细微细节。最后，当前模型常常未能有效利用文本数据，而后者可以提供有价值上下文信息，有助于区分正常和异常行为。

作者的动机源自通过利用大语言模型（LVLMs）的力量来克服这些限制，以一种既能提高异常检测能力又能增强模型预测可解释性的方法，对视觉和文本信息进行对齐。在本工作中，作者提出了一种名为基于对比跨模态训练的视觉-语言异常检测方法（CLAD）。作者的方法结合了对比学习与跨模态推理，共同构建了一个联合嵌入空间，用于处理视觉和文本数据。通过这种方式，模型不仅能够基于视觉线索区分正常和异常实例，还能考虑其文本上下文。该方法使得模型能够在工业环境中检测已知和未知的异常，从而提高模型在不同异常类型和工业环境下的泛化能力。此外，作者还引入了一个上下文推理模块，使模型能够生成关于检测到的异常的文本解释，从而为模型的决策过程提供有价值的见解。

为了评估，作者在两个基准数据集MVTec-AD [3] 和 VisA [4] 上进行了广泛实验。这些数据集提供了全面的测试平台，用于评估不同类型的工业物件和缺陷的异常检测方法。作者使用图像 Level 和像素 Level 的AUC（曲线下面积）得分以及精度指标来评估作者模型的表现。作者的结果显示，CLAD在异常检测和定位任务中显著优于现有方法，相比之前的方法如AnomalyGPT [5]、PaDiM [6] 和PatchCore [7]，CLAD在准确性和鲁棒性方面均有明显提高。

总之，本项工作的主要贡献如下：

作者提出了一种新的工业异常检测方法CLAD，该方法结合了对比学习和跨模态推理，共同建模视觉和文本信息以进行异常检测。
作者引入了一个上下文推理模块，使模型能够为检测到的异常生成文本解释，从而提高检测过程的可解释性和有效性。-
通过在基准数据集上进行全面的实验，作者展示了CLAD的有效性，结果显示与现有方法相比，在检测性能和泛化能力方面均有显著改进。

2 Related I Work

2.1 Large Vision-Language Models

大视觉-语言模型（LVLMs）已成为学习图像和文本联合表示的强大框架。该领域中最影响力的模型之一是CLIP（对比语言-图像预训练）[8]，它通过在共享嵌入空间中对齐图像及其对应的文字描述来预训练视觉模型和语言模型。CLIP 在多种下游任务中展示了令人印象深刻的零样本性能，使其能够在无需针对特定任务进行微调的情况下很好地泛化到未见过的数据。其架构利用了大规模的图像和文本数据集来学习语义对应关系，使它成为许多视觉-语言任务中高度通用的模型。

在CLIP之后，OpenAI开发的另一个模型DALL·E引入了一种基于Transformer架构从文本描述生成图像的能力。与主要集中在表示学习的CLIP不同，DALL·E探索了图像生成的创造性方面，利用大量带有配对图像和文本的数据集来学习如何根据文本输入生成新的图像。该模型激发了对视觉-语言领域生成任务的进一步研究。

另一种值得注意的方法是VisualBERT [13]，它将基于Transformer的BERT架构扩展到了视觉语言领域。VisualBERT直接将视觉特征整合到语言模型中[14,15]，将图像区域和文本 Token 视为统一序列。该方法在视觉问答（VQA）和图像字幕等任务上表现出色。类似地，UNITER [16] 和VL-BERT [17] 等其他工作也适应了Transformer模型，以实现联合的图像-文本表示学习。这些模型在多种视觉语言任务上表现良好，并通过在大规模数据集上进行预训练并在特定任务数据上进行微调，达到了最先进的性能[18,19]。

此外，近年来的方法如ALBEF [20] 探索了改进的融合策略以实现视觉-语言对齐。ALBEF 引入了一种对齐后再融合的方法，即先对图像特征和文本特征进行对齐，然后再融合到共享表示中。该方法已被证明在需要细粒度视觉与文本模态对齐的任务中（如图像-文本检索和VQA）能够提高性能。

最后，Florence [21] 是微软研究院最近的一项贡献，是一款旨在实现通用视觉和语言理解的基础模型。Florence 结合了大规模的视觉和语言预训练，使其能够在一系列视觉和语言任务中达到最先进的性能。其可扩展的架构和预训练框架推动了多模态学习所能达到的极限。

这些模型在视觉-语言理解领域迈出了重要的一步。它们证明了大规模预训练和视图数据与文本数据的对齐可以产生高度有效的表示，能够跨多种任务泛化。然而，尽管取得了这些进步，在诸如工业异常检测等专门任务中，仍然存在适应这些模型的挑战，特别是在需要领域特定知识和精确定位的情况下。

2.2 Detecting Industrial Anomalies

工业异常检测由于其提高运营效率、预防设备故障和减少生产损失的潜力，已经引起了越来越多的关注。近期的研究工作探索了包括机器学习、深度学习和基于计算机视觉的技术在内的各种方法，以应对工业环境下异常检测所面临的挑战。

最常见的方法之一是无监督异常检测。无监督方法不需要标注数据，因此特别适用于获得标注数据成本高且耗时的现实工业环境。这种方法的一个典型例子是使用自动编码器进行工业系统中的异常检测。例如，卷积自动编码器[22]能够学习重构输入数据，在重构误差超过阈值时检测异常。这些方法在图像和传感器数据中检测异常特别有效，在这种情况下，系统会学习正常操作的紧凑表示，并识别出偏差。

除了自编码器，生成对抗网络（GANs）也在工业环境中应用于异常检测领域[23]。基于GAN的方法学习正常数据的分布，并利用判别网络通过识别不符合所学分布的样本来检测异常。当可用的 Token 数据有限时，GANs特别有效，因为它们可以生成正常行为的逼真样本。

在工业图像异常检测的背景下，也研究了深度学习模型。在制造业领域，产品图像中的缺陷检测是一个关键的应用领域。卷积神经网络（CNNs）已被用于自动缺陷检测[24]，其中模型被训练以将图像区域分类为正常或缺陷。最近，人们研究了视觉 Transformer （ViTs）等方法，利用其在工业图像中捕获全局上下文信息的能力[25]，从而在准确性方面超过了传统的基于CNN的模型。

另一种方法涉及时间序列异常检测，在工业控制系统中非常重要，因为传感器数据会持续收集[26]。循环神经网络（RNN），特别是长短期记忆（LSTM）网络，已被广泛应用于时间序列数据中的异常检测[27]。这些模型旨在捕捉时间依赖性，并检测工业设备正常运行模式的偏差。

MVTec AD数据集[3]是一个全面的工业异常检测基准，广泛用于评估工业环境中异常检测模型的性能。该数据集包含高分辨率的工业产品图像及其相关的异常情况，包括划痕、凹陷和缺失部件等特定类别的缺陷。许多最新的异常检测方法都使用此数据集进行了基准测试，展示了现代深度学习技术在工业环境中小尺度异常检测的有效性。

尽管在工业异常检测领域取得了显著进展，但仍面临诸多挑战，尤其是在实时检测、异常定位以及适应多种工业领域方面。许多模型需要大量的计算资源或依赖于大规模标注数据集，这限制了它们在生产环境中的实用性。此外，将现有的异常检测技术适应专门的工业任务（例如，在高度可变的制造过程中检测罕见或细微的缺陷）仍然是一个具有挑战性的研究方向。

3 Method

3.1 Model Overview

作者的模型由三个关键组件组成：

视觉编码器：预先训练的卷积神经网络（CNN）或视力 Transformer （ViT）用于从输入图像中提取视觉特征。令表示输入图像，表示由视觉编码器提取的特征向量。该特征向量捕获了图像中工业目标的高层空间和语义信息。

文本编码器：使用预先训练好的基于Transformer的语言模型（如GPT或BERT）来处理文本描述。令表示文本输入（例如缺陷描述或产品手册），表示文本特征向量。文本编码器捕获与目标及其潜在异常相关的语义信息。

对比学习模块：该组件使用对比损失函数将视觉和文本嵌入映射到共享空间中，这是异常检测过程的核心。

整体架构可以描述为：

其中，和分别是视觉特征嵌入和文本特征嵌入。

3.2 Contrastive Loss for Cross-Modal Alignment

作者模型训练的核心在于一种对比损失，确保正常实例的视觉和文本表示在共享嵌入空间中更接近，而异常实例的表示则被推开。为了实现这一点，作者将对比损失定义为：

其中：

是批量大小，
是同一实例的视觉和文本嵌入之间的欧几里得距离的平方，
是一个.margin，促使同一实例的嵌入在特征空间中靠近，
是不同实例和的嵌入之间的距离，
是一个.margin，促使不同实例的嵌入在嵌入空间中远离，
表示正部分，意味着如果正配对的距离小于，则损失为零。此对比损失函数在共享空间中推动正（正常）配对更接近，并推动负（异常）配对更远。

3.3 Anomaly Detection and Localization

经过对比损失对视觉特征和文本特征进行对齐之后，接下来的任务是异常检测与定位。为了检测异常，作者计算未见过图像的视觉特征与其对应的物体描述文本特征之间的相似度得分。对于新的测试样本，作者使用以下异常评分函数来评估其异常程度。

其中，是测试图像的视觉特征，是相关描述的文本特征，是一个缩放因子，用于控制相似度度量的敏感性。

的较低值表明异常程度较高，如果落在阈值以下，则作者将该样本分类为异常样本。

对于异常局部化，作者利用一种分割技术来识别图像中对异常贡献最大的特定像素。这可以通过使用基于梯度的简单方法，例如Grad-CAM，来实现，以突出显示最负责视觉嵌入与文本嵌入之间匹配度差异的图像区域：

其中，是最终卷积层的权重，是最后一层卷积层中位置的激活图，ReLU函数确保只考虑正向贡献。

该定位方法提供了视觉热力图，突出显示了输入图像中的异常区域，使得异常检测过程更具可解释性。

3.4 Learning Strategy: Task-Driven Fine-Tuning

该学习策略旨在优化模型用于工业异常检测。作者采用一种任务驱动的微调方法，即模型首先在大规模的通用视觉-语言配对数据集（例如，大型语料库中的图像和描述）上进行预训练，然后针对特定的工业数据集进行微调。在微调过程中，通过最小化特定异常检测任务背景下的对比损失，更新视觉和文本编码器。

训练的整体损失函数由两部分组成：

其中，Lreconstruction 是一个重构损失，有助于保留视觉和文本细节，尤其是在处理法线实例时。重构损失确保模型不会过度泛化，并且在训练过程中能够保留重要的视觉和文本特征。超参数控制对比损失与重构损失之间的平衡。

重建损失定义为：

其中，和分别表示视觉编码器和文本编码器的逆函数，用于从嵌入中重构原始输入。

3.5 Model Inference

在推理过程中，给定测试图像 (I) 及其相关文本描述 (T) ，作者计算异常分数 (S(I,T)) 并将图像分类为正常或异常。如果 (S(I,T)) 低于预定义的阈值，则该样本被分类为异常。随后应用定位技术以突出显示图像中的异常区域。

4 Experiments

在本节中，作者介绍了用于评估所提出方法“对比跨模态训练的视觉-语言异常检测（CLAD）”性能的实验设置和结果。作者将作者的方法与几种最先进的异常检测方法在两个广泛使用的工业异常检测数据集MVTec-AD和VisA上进行了比较。作者的目标是证明CLAD在异常检测和定位任务中均优于现有技术。此外，作者还提供了人工评估以评估该方法在实际应用中的可解释性和实用性。

4.1 Experimental Setup

作者将在两个基准数据集MVTec-AD [3] 和VisA [4] 上评估CLAD。MVTec-AD数据集包含15个类别，其中有3,629张训练图像和1,725张测试图像，包括正常样本和异常样本。VisA数据集包含12个类别，其中有9,621张正常图像和1,200张异常图像。为了进行比较，作者选择了几种最新的异常检测方法，包括：

作者在两个主要任务上评估了这些模型：异常检测（即正常与异常的分类）和异常定位（即像素级异常识别）。对于异常检测，作者报告了Image-AUC，而对于异常定位，作者报告了Pixel-AUC。

4.2 Quantitative Results

表1展示了CLAD在MVTec-AD和VisA数据集上与其他方法的比较结果。作者以图像AUC和像素AUC两个方面报告了性能，并且结果基于五次运行的平均值。如表所示，CLAD在两个数据集上均显著优于其他所有方法，在异常检测和定位任务中均取得了最高分。

如表1所示，作者的方法CLAD在两个数据集上均取得了优越的性能。值得注意的是，在图像AUC和像素AUC方面，CLAD比第二名方法WinCLIP有了显著提升。例如，在MVTec-AD数据集上，CLAD的ImageAUC达到了94.1，比WinCLIP高出了1.0个百分点。此外，作者的模型还显著提高了像素AUC分数，展示了更好的定位能力。

4.3 Ablation Study

为了进一步验证作者方法中不同组件的贡献，作者进行了消融研究以评估每个关键元素的影响。通过逐步移除或修改模型的某些部分，作者进行了实验，包括：- 移除对比损失并仅使用标准监督训练，- 移除特定任务的微调步骤，- 使用简单的视觉模型（CNN）而非基于ViT的编码器。

消融实验的结果如表2所示。消融实验清楚地表明，对比损失和微调是促进CLAD优越性能的关键组成部分。

实验结果证实，对比损失函数和微调步骤对于达到高性能至关重要。移除对比损失会导致Image-AUC和Pixel-AUC显著下降。同样，用更简单的CNN替换ViT也会导致性能明显下降，强调了使用强大视觉编码器的重要性。

4.4 Human Evaluation

为了评估作者方法的实际实用性和可解释性，作者进行了一项人工评价。作者邀请了工业缺陷检测领域的专家来评估由作者的方法产生的异常定位结果，并将其与 Ground Truth 标注进行比较。专家们被要求按照 1 到 5 的评分标准对异常定位的质量进行评级，其中 1 表示定位效果差，5 表示定位非常准确。

人类评估的结果如表3所示。CLAD在定位准确性方面显著优于其他方法，平均评分为4.6，表明CLAD生成的异常定位既精准又高度可解释。

human评估结果显示，作者的方法不仅在定量评估中表现出色，还在实际异步检测任务中提供了实用的优势。高定位精度使得检测更加有效和可解释，这对于工业应用至关重要。

4.5 Analysis of Anomaly Localization Performance

在本小节中，作者分析了CLAD生成的异常定位结果。作者重点考察了定位异常区域的精确度和召回率。为了评估这些指标，作者将预测的异常区域与ground truth标注进行对比，并使用交并比（IoU）进行评价。表4展示了每种方法的IoU得分。CLAD始终获得最高的IoU值，这表明其在正确识别异常边界方面具有卓越的性能。

CLAD算法获得的高IoU分数进一步证明了其不仅能够有效地检测异常，还能以高精度定位异常，使其成为工业异常检测任务中一个可靠的解决方案。

参考

[0]. Exploring Large Vision-Language Models for Robust and Efficient Industrial Anomaly Detection .

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-01-12，如有侵权请联系 cloudcommunity@tencent.com 删除

性能

本文分享自 AIGC 先锋科技微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度