首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >上交大&复旦提出AnomalyAgent:用RL+5个工具闭环优化,让Agent自己造工业缺陷数据,MVTec-AD分类准确率达57.0%

上交大&复旦提出AnomalyAgent:用RL+5个工具闭环优化,让Agent自己造工业缺陷数据,MVTec-AD分类准确率达57.0%

原创
作者头像
CoovallyAIHub
发布2026-04-16 16:36:32
发布2026-04-16 16:36:32
1900
举报

导读

工业异常检测的核心瓶颈之一是缺陷样本稀缺。现有的零样本合成方法依赖启发式扰动,生成的缺陷图像缺乏语义真实感;而直接使用图像生成模型(如Gemini、GPT)进行单步生成,又缺少质量反馈和迭代优化机制。能否让一个Agent像工程师一样,观察生成结果、判断质量、检索领域知识、反复调整,直到生成足够逼真的缺陷图像?

上海交通大学、同济大学和复旦大学的研究团队提出了AnomalyAgent,这是首个专为工业异常合成设计的工具驱动多轮Agent。该方法将缺陷图像合成重新定义为多轮、工具辅助的序列决策过程,配备5个专用工具,通过"感知-反思-行动"闭环进行迭代优化。训练采用SFT+RL两阶段策略,其中RL阶段使用GRPO算法并设计了三维奖励函数。在MVTec-AD数据集上,AnomalyAgent的IS达到2.10,分类准确率达到57.0%,较此前最优方法AnoHybrid提升+4.4%;用其生成数据训练的异常检测模型在像素级AUC上达到98.0


论文信息

  • 标题:AnomalyAgent: Agentic Industrial Anomaly Synthesis via Tool-Augmented Reinforcement Learning
  • 作者:Jiaming Su, Tengchao Yang, Ruikang Zhang, Zhengan Yan, Haoyu Sun, Linfeng Zhang
  • 机构:上海交通大学、同济大学、复旦大学

一、工业缺陷合成为何需要Agent?

工业异常检测面临一个根本性矛盾:模型需要大量缺陷样本来学习异常模式,但真实生产中缺陷本身就是小概率事件,获取成本极高。围绕这一问题,现有方法可以分为三类,但各自存在明显局限:

少样本方法(如基于GAN或扩散模型的方案)需要一定量的真实缺陷样本作为训练数据,生成的缺陷类型受限于训练集中已有的类型,难以覆盖未见过的缺陷模式。

零样本方法(如CutPaste、NSA、DRAEM)通过启发式扰动在正常图像上人工制造异常区域,不需要真实缺陷样本,但生成的结果往往缺乏语义真实感——裁切拼贴的痕迹明显,与真实缺陷的外观差距较大。

图像生成模型(如Gemini、GPT、Grok)具备强大的图像编辑能力,但在工业缺陷合成场景下采用的是单步生成模式:给定一个prompt,生成一张图,没有质量评估环节,也没有迭代优化的机制。如果生成结果不理想,无法自动改进。

AnomalyAgent的核心思路是将缺陷合成从"一步到位"转变为"多轮迭代决策":Agent在每一轮中观察当前生成结果,评估质量,检索相关领域知识,调整生成策略,再次生成——形成一个完整的闭环优化过程。

图片来源于原论文
图片来源于原论文

二、5个工具构成的闭环系统

AnomalyAgent的核心架构是一个基于Qwen3-VL-4B-Thinking的视觉语言模型,配备5个专用工具,通过多轮工具调用完成缺陷合成任务:

  1. Prompt Generation (PG):给定输入图像I、产品类别c和异常类型a,生成结构化文本prompt描述目标缺陷的外观特征。这一步将抽象的缺陷需求转化为具体的生成指令。
  2. Image Generation (IG):基于原图I和prompt p,使用Gemini 3.1 Flash Image Preview注入缺陷,生成异常图像I'。这是整个流程中唯一负责生成异常图像的工具。
  3. Quality Evaluation (QE):分析原图I和生成图I',输出质量分数s和文本反馈f。质量分数用于判断是否需要继续迭代,文本反馈则指导后续的prompt优化方向。
  4. Knowledge Retrieval (KR):根据产品类别和异常类型,检索该类缺陷的典型描述和领域知识,辅助Agent优化生成prompt。
  5. Mask Generation (MG):比较原图和异常图,使用预训练的MetaLASSi模型生成像素级异常掩码M,为后续的异常检测训练提供监督信号。

这5个工具的组合使用构成了不同复杂度的轨迹。论文按IG调用次数将轨迹分为三类:

  • Single-Generation:PG→IG→QE→MG,调用1次IG,适用于一次生成即满足质量要求的场景
  • Dual-Generation:首次QE评估不合格后,可选择调用KR检索知识,再次IG生成,共调用2次IG
  • Triple-Generation:更复杂的情况,需要多次迭代调整,共调用3次IG

轨迹构建

训练数据的构建是一个关键环节。论文从VisA数据集的真实异常样本出发,反向合成对应的正常图像,再通过N步生成范式构建合成轨迹。最终共构建了2772条结构化轨迹(其中2400条包含KR步骤,360条不含KR步骤),RL阶段使用1030条初始prompt。


三、SFT+RL两阶段训练与三维奖励设计

AnomalyAgent的训练分为两个阶段:

第一阶段:SFT冷启动

监督微调(SFT)阶段让模型学习基本的工具使用格式和调用策略。训练时冻结VLM的视觉编码器,使用标准自回归损失:

SFT在DeepSpeed ZeRO-3上训练3个epochs,学习率为1×10⁻⁵。从训练动态来看,SFT阶段(前300步)loss从0.94快速下降至约0.10,模型迅速掌握了工具调用的基本模式。

第二阶段:RL策略优化

仅靠SFT学到的是模仿行为,缺乏对生成质量的主动优化能力。RL阶段使用GRPO(Group Relative Policy Optimization)算法,通过精心设计的奖励信号引导Agent学会更好的决策策略。

奖励函数由三个维度组成:

Task reward(R_task):使用LLM-as-a-Judge评估最终生成图像的真实感和合理性,是对生成结果的整体质量评价。

Reflection reward(R_ref):鼓励Agent在多轮迭代中持续提升生成质量,计算方式为相邻两轮质量分数的正向增量之和:

这一设计确保Agent不会因为盲目增加迭代轮次而获得奖励,只有在每一轮切实提升了质量时才有正向回报。

Behavioral reward(R_beh):统一评估工具调用的正确性、格式合规性和轨迹长度控制,约束Agent的行为规范。

总奖励为三者的加权和:

RL阶段训练2个epochs,使用AdamW优化器配合cosine衰减策略,每个prompt进行8轮rollout,replay buffer大小为128,温度设为1.0,并应用零优势过滤。从训练曲线来看,RL阶段reward从0.42稳步升至0.79,约50个全局步后趋于饱和。


四、消融实验:每个组件贡献几何?

主实验结果

论文在MVTec-AD数据集上进行了系统评估。在图像质量指标上,AnomalyAgent的IS(Inception Score)达到2.10IC-L达到0.33。其中IS在所有方法中最优,IC-L与AnomalyAny并列最高,表明生成图像具有较高的类内多样性。

与代表性方法的对比:

方法

IS↑

IC-L↓

CutPaste

1.76

0.22

DRAEM

1.76

0.25

NSA

1.44

0.26

RealNet

1.64

0.22

AnomalyAny

2.02

0.33

AnoStyler

2.04

0.32

AnoHybrid

2.06

0.32

Gemini 3.1 Flash Image Preview

1.91

0.29

GPT Image 1.5

1.77

0.29

AnomalyAgent (Ours)

2.10

0.33

分类准确率上,AnomalyAgent达到57.0%,较AnoHybrid的52.6%提升+4.4%,较直接使用Gemini 3.1 Flash Image Preview的44.7%提升+12.3%:

方法

Accuracy↑

AnoStyler

32.2

AnoHybrid

52.6

Gemini 3.1 Flash Image Preview

44.7

GPT Image 1.5

40.5

Grok Imagine Image

38.9

AnomalyAgent (Ours)

57.0

异常检测性能上,使用AnomalyAgent生成的数据训练检测模型,在MVTec-AD上的表现为:

  • 像素级:AUC 98.0,AP 74.2,F1 70.3
  • 图像级:AUC 98.5,AP 99.3,F1 97.5

与此前最优的零样本基线AnoHybrid相比,像素级AUC从96.9提升至98.0(+1.1),AP从72.9提升至74.2(+1.3),F1从69.1提升至70.3(+1.2)。

组件消融

消融实验清晰展示了每个组件的贡献:

#

PG

QE

KR

SFT

RL

IS↑

IC-L↓

Accuracy↑

(a)

1.91

0.29

44.7

(b)

1.90

0.29

48.2

(c)

2.03

0.32

47.3

(d)

1.99

0.32

45.1

(e)

2.03

0.32

49.5

(f)

2.08

0.33

52.4

(g)

2.10

0.33

57.0

几个关键观察:

  • 基线(a)→加工具(b):仅添加PG和QE工具但不做任何训练,分类准确率从44.7%提升至48.2%(+3.5%),说明工具本身就提供了有价值的结构化能力
  • 无QE(d) vs 有QE(c):移除质量评估工具后,准确率从47.3%降至45.1%(-2.2%),表明质量反馈对迭代优化至关重要
  • 加KR(e) vs 不加KR(c):引入知识检索后准确率从47.3%提升至49.5(+2.2%),领域知识有助于生成更真实的缺陷
  • 加RL(f) vs 仅SFT(c):RL阶段带来的提升最为显著,准确率从47.3%提升至52.4%(+5.1%)
  • 完整模型(g):所有组件叠加后达到57.0%,较仅SFT+工具(e)的49.5%提升+7.5%

奖励组件消融

三维奖励设计的贡献同样清晰:

#

R_task

R_ref

R_beh

IS↑

IC-L↓

Accuracy↑

(a)

2.08

0.33

52.4

(b)

2.09

0.33

53.6

(c)

2.09

0.33

55.3

(d)

2.10

0.33

57.0

仅使用R_task时准确率为52.4%,逐步加入R_ref和R_beh后分别提升至53.6%和55.3%,三者全部使用时达到57.0%。R_beh的贡献(+2.9%)略高于R_ref(+1.2%),说明行为规范约束对Agent决策质量的影响更大。

图片来源于原论文
图片来源于原论文

五、总结与思考

AnomalyAgent将工业缺陷合成重新定义为多轮工具辅助的序列决策问题,通过5个专用工具的闭环协作和SFT+RL两阶段训练,在MVTec-AD上取得了IS 2.10、分类准确率57.0%的结果,像素级AUC提升至98.0。

值得关注的是,当前5个工具中IG、PG、QE均依赖商业API(Gemini系列),每次推理需多次调用,工业部署的成本可持续性和开源替代方案值得探索。此外,实验仅覆盖MVTec-AD和VisA两个数据集,在更复杂的工业场景(金属加工、半导体等)中的泛化能力还需验证。不过,将"端到端生成"拆解为"工具调用+质量评估+迭代优化"的Agent化范式本身具有推广价值,可扩展到医学影像病变合成、遥感目标插入等场景。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 导读
  • 一、工业缺陷合成为何需要Agent?
  • 二、5个工具构成的闭环系统
    • 轨迹构建
  • 三、SFT+RL两阶段训练与三维奖励设计
    • 第一阶段:SFT冷启动
    • 第二阶段:RL策略优化
  • 四、消融实验:每个组件贡献几何?
    • 主实验结果
    • 组件消融
    • 奖励组件消融
  • 五、总结与思考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档