
工业异常检测的核心瓶颈之一是缺陷样本稀缺。现有的零样本合成方法依赖启发式扰动,生成的缺陷图像缺乏语义真实感;而直接使用图像生成模型(如Gemini、GPT)进行单步生成,又缺少质量反馈和迭代优化机制。能否让一个Agent像工程师一样,观察生成结果、判断质量、检索领域知识、反复调整,直到生成足够逼真的缺陷图像?
上海交通大学、同济大学和复旦大学的研究团队提出了AnomalyAgent,这是首个专为工业异常合成设计的工具驱动多轮Agent。该方法将缺陷图像合成重新定义为多轮、工具辅助的序列决策过程,配备5个专用工具,通过"感知-反思-行动"闭环进行迭代优化。训练采用SFT+RL两阶段策略,其中RL阶段使用GRPO算法并设计了三维奖励函数。在MVTec-AD数据集上,AnomalyAgent的IS达到2.10,分类准确率达到57.0%,较此前最优方法AnoHybrid提升+4.4%;用其生成数据训练的异常检测模型在像素级AUC上达到98.0。
论文信息
工业异常检测面临一个根本性矛盾:模型需要大量缺陷样本来学习异常模式,但真实生产中缺陷本身就是小概率事件,获取成本极高。围绕这一问题,现有方法可以分为三类,但各自存在明显局限:
少样本方法(如基于GAN或扩散模型的方案)需要一定量的真实缺陷样本作为训练数据,生成的缺陷类型受限于训练集中已有的类型,难以覆盖未见过的缺陷模式。
零样本方法(如CutPaste、NSA、DRAEM)通过启发式扰动在正常图像上人工制造异常区域,不需要真实缺陷样本,但生成的结果往往缺乏语义真实感——裁切拼贴的痕迹明显,与真实缺陷的外观差距较大。
图像生成模型(如Gemini、GPT、Grok)具备强大的图像编辑能力,但在工业缺陷合成场景下采用的是单步生成模式:给定一个prompt,生成一张图,没有质量评估环节,也没有迭代优化的机制。如果生成结果不理想,无法自动改进。
AnomalyAgent的核心思路是将缺陷合成从"一步到位"转变为"多轮迭代决策":Agent在每一轮中观察当前生成结果,评估质量,检索相关领域知识,调整生成策略,再次生成——形成一个完整的闭环优化过程。

AnomalyAgent的核心架构是一个基于Qwen3-VL-4B-Thinking的视觉语言模型,配备5个专用工具,通过多轮工具调用完成缺陷合成任务:
这5个工具的组合使用构成了不同复杂度的轨迹。论文按IG调用次数将轨迹分为三类:
训练数据的构建是一个关键环节。论文从VisA数据集的真实异常样本出发,反向合成对应的正常图像,再通过N步生成范式构建合成轨迹。最终共构建了2772条结构化轨迹(其中2400条包含KR步骤,360条不含KR步骤),RL阶段使用1030条初始prompt。
AnomalyAgent的训练分为两个阶段:
监督微调(SFT)阶段让模型学习基本的工具使用格式和调用策略。训练时冻结VLM的视觉编码器,使用标准自回归损失:
SFT在DeepSpeed ZeRO-3上训练3个epochs,学习率为1×10⁻⁵。从训练动态来看,SFT阶段(前300步)loss从0.94快速下降至约0.10,模型迅速掌握了工具调用的基本模式。
仅靠SFT学到的是模仿行为,缺乏对生成质量的主动优化能力。RL阶段使用GRPO(Group Relative Policy Optimization)算法,通过精心设计的奖励信号引导Agent学会更好的决策策略。
奖励函数由三个维度组成:
Task reward(R_task):使用LLM-as-a-Judge评估最终生成图像的真实感和合理性,是对生成结果的整体质量评价。
Reflection reward(R_ref):鼓励Agent在多轮迭代中持续提升生成质量,计算方式为相邻两轮质量分数的正向增量之和:
这一设计确保Agent不会因为盲目增加迭代轮次而获得奖励,只有在每一轮切实提升了质量时才有正向回报。
Behavioral reward(R_beh):统一评估工具调用的正确性、格式合规性和轨迹长度控制,约束Agent的行为规范。
总奖励为三者的加权和:
RL阶段训练2个epochs,使用AdamW优化器配合cosine衰减策略,每个prompt进行8轮rollout,replay buffer大小为128,温度设为1.0,并应用零优势过滤。从训练曲线来看,RL阶段reward从0.42稳步升至0.79,约50个全局步后趋于饱和。
论文在MVTec-AD数据集上进行了系统评估。在图像质量指标上,AnomalyAgent的IS(Inception Score)达到2.10,IC-L达到0.33。其中IS在所有方法中最优,IC-L与AnomalyAny并列最高,表明生成图像具有较高的类内多样性。
与代表性方法的对比:
方法 | IS↑ | IC-L↓ |
|---|---|---|
CutPaste | 1.76 | 0.22 |
DRAEM | 1.76 | 0.25 |
NSA | 1.44 | 0.26 |
RealNet | 1.64 | 0.22 |
AnomalyAny | 2.02 | 0.33 |
AnoStyler | 2.04 | 0.32 |
AnoHybrid | 2.06 | 0.32 |
Gemini 3.1 Flash Image Preview | 1.91 | 0.29 |
GPT Image 1.5 | 1.77 | 0.29 |
AnomalyAgent (Ours) | 2.10 | 0.33 |
在分类准确率上,AnomalyAgent达到57.0%,较AnoHybrid的52.6%提升+4.4%,较直接使用Gemini 3.1 Flash Image Preview的44.7%提升+12.3%:
方法 | Accuracy↑ |
|---|---|
AnoStyler | 32.2 |
AnoHybrid | 52.6 |
Gemini 3.1 Flash Image Preview | 44.7 |
GPT Image 1.5 | 40.5 |
Grok Imagine Image | 38.9 |
AnomalyAgent (Ours) | 57.0 |
在异常检测性能上,使用AnomalyAgent生成的数据训练检测模型,在MVTec-AD上的表现为:
与此前最优的零样本基线AnoHybrid相比,像素级AUC从96.9提升至98.0(+1.1),AP从72.9提升至74.2(+1.3),F1从69.1提升至70.3(+1.2)。
消融实验清晰展示了每个组件的贡献:
# | PG | QE | KR | SFT | RL | IS↑ | IC-L↓ | Accuracy↑ |
|---|---|---|---|---|---|---|---|---|
(a) | 1.91 | 0.29 | 44.7 | |||||
(b) | ✓ | ✓ | 1.90 | 0.29 | 48.2 | |||
(c) | ✓ | ✓ | ✓ | 2.03 | 0.32 | 47.3 | ||
(d) | ✓ | ✓ | 1.99 | 0.32 | 45.1 | |||
(e) | ✓ | ✓ | ✓ | ✓ | 2.03 | 0.32 | 49.5 | |
(f) | ✓ | ✓ | ✓ | ✓ | 2.08 | 0.33 | 52.4 | |
(g) | ✓ | ✓ | ✓ | ✓ | ✓ | 2.10 | 0.33 | 57.0 |
几个关键观察:
三维奖励设计的贡献同样清晰:
# | R_task | R_ref | R_beh | IS↑ | IC-L↓ | Accuracy↑ |
|---|---|---|---|---|---|---|
(a) | ✓ | 2.08 | 0.33 | 52.4 | ||
(b) | ✓ | ✓ | 2.09 | 0.33 | 53.6 | |
(c) | ✓ | ✓ | 2.09 | 0.33 | 55.3 | |
(d) | ✓ | ✓ | ✓ | 2.10 | 0.33 | 57.0 |
仅使用R_task时准确率为52.4%,逐步加入R_ref和R_beh后分别提升至53.6%和55.3%,三者全部使用时达到57.0%。R_beh的贡献(+2.9%)略高于R_ref(+1.2%),说明行为规范约束对Agent决策质量的影响更大。

AnomalyAgent将工业缺陷合成重新定义为多轮工具辅助的序列决策问题,通过5个专用工具的闭环协作和SFT+RL两阶段训练,在MVTec-AD上取得了IS 2.10、分类准确率57.0%的结果,像素级AUC提升至98.0。
值得关注的是,当前5个工具中IG、PG、QE均依赖商业API(Gemini系列),每次推理需多次调用,工业部署的成本可持续性和开源替代方案值得探索。此外,实验仅覆盖MVTec-AD和VisA两个数据集,在更复杂的工业场景(金属加工、半导体等)中的泛化能力还需验证。不过,将"端到端生成"拆解为"工具调用+质量评估+迭代优化"的Agent化范式本身具有推广价值,可扩展到医学影像病变合成、遥感目标插入等场景。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。