前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >杜克大学提出 OSR-ViT | 性能水平远超现有的监督学习方法,仅使用少量训练数据就能超越监督 Baseline !

杜克大学提出 OSR-ViT | 性能水平远超现有的监督学习方法,仅使用少量训练数据就能超越监督 Baseline !

作者头像
集智书童公众号
发布2024-04-25 13:40:01
2900
发布2024-04-25 13:40:01
举报
文章被收录于专栏:集智书童

在开放世界部署中,目标检测器检测并标记 新颖 目标的能力对许多实际应用至关重要。 不幸的是,目前开放目标检测领域的工作是支离破碎的,并且未能充分解决那些既重视未知目标召回率 又 重视已知类别准确性的应用。 为了填补这一空白,作者提出了一个名为开放集目标检测与发现(OSODD)的新任务,并作为解决方案提出了基于ViT特征的开放集区域(OSR-ViT)检测框架。 OSR-ViT将一个类别无关的建议网络与强大的基于ViT的分类器结合在一起。其模块化设计简化了优化过程,并允许用户轻松替换建议解决方案和特征提取器,以最适合他们的应用。 通过作者的多方面评估协议,作者展示了OSR-ViT获得的性能水平远超现有的监督学习方法。作者的方法在低数据环境下也表现出色,仅使用少量训练数据就能超越监督 Baseline 。

1 Introduction

传统的目标检测模型是在闭合集条件下设计、训练和评估的,在这个条件下,假定所有感兴趣的可能类别在训练数据集中都被详尽地标记了。如果这样的模型在开放集环境中部署,其中存在来自训练类别分布之外的未知物体,模型可能会将物体错误分类为已知类别,或者完全检测不到物体——这会导致严重的安全、公平性和可靠性问题。这促使了对开放集目标检测[23]的需求,其中除了已知的“分布内”(ID)物体之外,还明确处理未知的“分布外”(OOD)物体。

尽管有许多研究试图解决开集检测问题,作者认为它们处理未知目标的方式严重限制了其实用性。具体来说,它们都没有考虑开集目标召回率(OOD object recall)。例如,Miller等人和Dhamija等人[5]的开创性工作将适当的“开集目标检测”(OSOD)行为定义为简单避免将任何开集(OOD)目标检测为已知类(ID)。Du等人较新的研究则处理“未知意识目标检测”(UAOD),其中模型预期能够准确地标记恰好被检测器分类头提出的开集目标,但并不鼓励开集 Proposal 。尽管这些行为对某些任务可能足够,但许多应用要求明确检测(即发现)所有感兴趣的目标,无论是已知类还是开集。例如,自动驾驶车辆经常面临不可预见的障碍,需要检测以确保安全操作。内容审查系统也必须在过滤不足的复杂性中准确识别不断演化的内容类型[38]。此外,医学图像处理模型依赖于检测异常[4]。在这种情况下,开集召回率低带来的后果是严重的,这需要一个将开集召回率作为优先考虑的新开集任务。

在这项工作中,作者引入了开集目标检测与发现(OSODD):一个任务,它明确优先考虑既有类别识别精度(ID-class accuracy)和开集目标召回率(OOD object recall)。OSODD更能适当地模拟许多现实世界中的应用,如上述所提及的。为了衡量在OSODD任务上的性能,作者设计了一个新的评估协议,该协议对测试数据不做任何简化假设,并包含了一个新颖的与阈值无关的平均开集精度(AOSP)汇总指标。作者在三个新的基准数据集上测试模型,这些基准数据集旨在模拟广泛的可行设置,包括低数据环境和多个图像域。作者的OSODD评估协议不仅使得对模型性能的分析更为全面,而且是首个允许从开集检测的几个子领域(例如,OSOD [5],UAOD [9],开放世界目标检测(OWOD)[23])进行统一比较的协议。这样的比较突显了这些解决方案在OSODD中的表现是多么不足(见图1)。

图1:尽管其他设置忽略了离群检测召回率,但所提出的OSODD任务除了考虑已建立的指标外,还优先考虑这一点。在这个例子中,根据OSOD或UAOD协议,一个“完美”的模型可能会导致严重的安全后果。

为了解决开放集目标检测任务(OSODD),作者创建了一个新的高度模块化的检测框架,称为基于ViT特征的开放集区域(OSR-ViT)。该框架由一个专用的类不可知 Proposal 网络结合一个分类器模块组成,该分类器模块利用强大的现成的基于ViT的基础模型。OSR-ViT的双分架构不需要端到端训练,因此用户可以轻松地将任一组件替换为未来的或定制的模型。在本文中框架的实例化,作者使用了最先进的可调整混合 Proposal 网络(THPN)[21]和DINOv2 [39]基础模型。作者发现,作者这个简单、模块化且用户友好的OSR-ViT框架,其性能远超所有完全监督的开放集特定 Baseline 。作者的框架在低数据环境下具有特别的优势,即便是作者最轻量级的配置,在仅用PASCAL VOC [11]训练数据的25%进行训练后,其表现也超过了所有其他在100%数据上训练的 Baseline 。

总体而言,作者的贡献如下:

  1. 作者创建了一个新的联合开放集目标检测与发现任务,该任务同时优先考虑已知类(ID)和未知类(OOD)的目标检测,并且与实际的开放集检测应用更为贴近。为了衡量性能,作者开发了一个新的全面评估协议和AOSP汇总指标,这使得可以统一比较之前无法比较的研究工作。
  2. 作者提出了一个新颖的OSR-ViT框架,用以解决OSODD任务。OSR-ViT的模块化特性使得可以立即采用最新开发的基础模型,从而保证了作者设计的长期适用性。
  3. 作者展示了OSR-ViT在最小配置下,无需繁琐的端到端训练,就极大地超越了全监督的替代方法。作者还证明了其在稀疏数据以及在遥感领域中的有效性。

2 Limitations of Existing Work

现有“开放”目标检测文献的一个主要限制是任务目标的不一致性。不同作品中使用的评估协议差异很大,这使得直接比较方法变得非常具有挑战性。在这里,作者详细阐述了开放检测现有的细分领域及其局限性。

类别无关的目标 Proposal 。 目标发现模型无需监督即可将目标与背景分离 [44]。这一领域早期的作品通过图像变换[3, 44]或噪声[10]来识别显著区域。而较新的研究则利用卷积特征而不是直接使用图像[1, 32]。类别无关的目标 Proposal 网络旨在最大化ID(已知类别)和OOD(未知类别)目标的召回率(无需进一步分类)。Kim等人[24]指出,由于采用了判别式学习方法,标准的目标 Proposal 网络,如区域 Proposal 网络(RPN)[43]及其变体[49, 50],对ID类别产生了过拟合。他们反而提出了一种目标定位网络(OLN),用定位质量预测头替代了类别无关的Faster R-CNN[43]的分类头,从而得到了一个更容易泛化到OOD目标的模型。Konan等人[25]和Saito等人[45]分别采用未知目标 Mask 和背景擦除增强方法来进一步减少ID偏差。虽然类别无关的检测很有用,但对于实际任务来说,通常还需要下游的分类分离。

开集与未知意识目标检测。 开集目标检测器(OSOD)应当忽略非开集(OOD)目标,并不让OOD或“野生”数据影响开集(ID)的准确度[34, 35, 36, 16, 5]。换句话说,目标就是简单避免将OOD目标误认为是ID类别。Miller等人[35]首次引入了开集目标检测的概念,并使用辍学采样[12]来改善标签的不确定性。Dhamija等人[5]展示闭集检测器倾向于将OOD目标误分类为ID类别。最近,Han等人[16]使用对比特征学习器从潜在的表示中识别OOD目标。OSOD的局限性在于对OOD目标的召回率是无关的,这使得这些方法不适合许多实际应用。一个未知意识目标检测(UAOD)模型应该最大化ID性能,并精确标记任何可能被分类器头提出的OOD目标[7, 8, 9]。Du等人[9]生成近OOD虚拟异常值以学习更紧凑的ID簇,从而简化ID和OOD目标的分离。SIREN[7]将ID类别的表示映射到冯·米塞斯-费希尔(vMF)分布上,为检测器提供一个基于距离的强大的OOD算法。最后,STUD[8]从视频数据中提取未知目标,以提高目标检测模型中的OOD检测。这一细分领域的一个主要局限性是,大多数研究[7, 8, 9]在检测任务中评估性能时做出了几个不现实且无效的假设。例如,它们要求开集(ID)和闭集(OOD)验证集是互斥的,并且错误地假设所有超过某个置信度阈值的检测分别是有效的ID和OOD预测。

开放世界与开放词汇目标检测。 OWOD模型的目标是通过将其未知预测转发给人类标注者来最大化ID性能并逐步学习新类。

3 Open Set Object Detection and Discovery

在本节中,作者将详细描述OSODD任务。在3.1节中,作者用符号正式化问题,并在3.2节中详细阐述作者新颖的性能指标和评估协议。

Problem Formulation

与任何监督检测任务一样,作者假设能够访问到一个训练数据集,其中包含了一组感兴趣的目标类的标签。作者将这组类称为“已知”集合

\mathcal{K}=\{1,2,\ldots,C\}\subset\mathbb{N}^{+}

。在OSODD中,作者也正式承认存在“未知”目标类

\mathcal{U}=\{C+1,\ldots\}\subset\mathbb{N}^{+}

,这些未知类别与已知实例在训练和部署数据中共存。目标是训练一个由参数

\theta

定义的模型

\mathcal{M}

,以检测和定位测试集中的所有感兴趣的目标实例(即集合

\mathcal{K}\cup\mathcal{U}

中的所有实例)。对于给定的测试图像

X

,模型的功能是

\mathcal{M}(X;\theta)=\{[x,y,w,h,c,s]_{i=1\ldots N}\}

,其中

x

y

w

h

分别表示边界框的中心坐标、宽度和高度。预测的类别

c\in\mathcal{K}\cup\{-1,0\}

描述了第

i

个预测所属的类别。这里,

c=0

表示一个“未知”的感兴趣目标,而

c=-1

表示“背景”(即没有目标)。最后,每个预测都有一个分数

s\in[0,1]

,表示模型对边界框

i

包含类别

c

的目标的置信度。

Evaluation Protocol

作者工作的一个关键贡献是为OSODD任务开发的全新评估程序。作者的评估使用四种类型的指标,在没有任何不切实际的假设或特定阈值设置的情况下,全面评估模型。

闭集身份平均精度(ID-mAP): 通过假设所有检测都是已知的,来衡量最大可能的ID-mAP。

类别无关的平均召回(CA-AR):通过假设单一前景(FG)类别来测量AR@100,从而隔离 Proposal 网络的表现。受试者工作特征曲线下的面积(AUROC):衡量分类器在所有可能阈值下的可分性。最近的UAOD工作[7, 8, 9]只测量了ID与OOD的AUROC,因为它们假设输入要么总是ID要么是OOD(二元的)。然而,对于OSODD任务来说,这样的假设是不充分的,因为作者面临的是一个三元决策:一个 Proposal 可以是ID目标,OOD目标或者是背景(BG)。因此,作者还计算以下分离轴的AUROC:ID与非ID,OOD与BG,以及FG与BG。

**平均开放集精度 (AOSP)**:作者新提出的AOSP指标提供了一种与阈值无关的模型在ID-mAP和OOD召回率之间权衡的概要。以下详细描述了这一指标。

3.2.2 Computing AUROC.

与现有工作[7, 9]使用AUROC进行开集检测不同,作者并不要求识别(ID)和开集(OOD)数据是互相排斥的集合,并且作者也不假设所有高置信度的预测都是有效的目标区域。相反,作者采取了一种更为严谨的方法,将混合测试集(即包含ID和OOD目标的图像)中所有 Proposal 的区域根据与 GT 标注的IoU重叠度划分为相应的ID/OOD/背景(BG)类别。注意,在评估期间,作者总是假设某些类别的子集是OOD,因此作者也有OOD目标的 GT 匹配。一旦预测被划分,作者就计算AUROC分数。ID与OOD以及ID与非ID的AUROC是通过 Proposal 区域的ID得分计算的,该得分对于ID目标应该高,对于OOD目标应该低(例如,能量[31],马氏距离[27]等)。BG与OOD以及前景(FG)与BG的AUROC是通过目标性得分计算的,该得分表示一个区域包含前景目标(无论是ID还是OOD)的可能性。

3.2.3 The AOSP metric.

虽然尝试使用mAP来衡量OOD(Out-of-Distribution)性能很具吸引力,但这并不可行,因为计算精度需要将所有OOD目标都进行标注。由于当前数据集的限制,作者没有为每一个目标提供详尽的标注。因此,衡量OOD性能的公认标准是在每张图像给定固定数量

k

的检测结果下的召回率。然而,作者认为从单一的召回率测量无法完全理解一个OSODD模型的真正性能,因为它只捕捉到了一个操作点上的性能。这一点由模型的ID_THRESH决定,即确定一个预测被视作ID(In-Distribution)目标的最低ID分数的阈值。作者认为评估模型的最佳方式是使用一个与阈值无关的指标,它能够概括ID性能与OOD性能之间的权衡,因为不同的应用需要不同的阈值。

为此,作者提出了平均开集精度(AOSP)。AOSP概括了ID-mAP(@IoU=0.5)与OOD召回率(@

k

=每幅图像100个检测)之间的权衡,并为作者提供了一个单一的标量度量,以比较在OSODD任务上的方法。图2展示了AOSP计算的可视化。作者特别找到达到{0:.05:1}中的21个离散目标OOD召回点的最小ID_THRESH。在每个点上,作者将所有ID分数

<

ID_THRESH的检测的

c

设置为0(_未知_),并在更新后的集合上计算ID-mAP。AOSP是这些OOD召回点上ID-mAP的平均值:

\text{AOSP}:=\frac{1}{21}\sum_{r\in\{0..05:1\}}\text{ID-mAP}_{\text{@OOD Recall = }r} \tag{1}

请注意,在ID_THRESH=

-\infty

时,每个检测都被认为是ID(最大ID-mAP),而在ID_THRESH=

\infty

时,每个检测都被认为是OOD(最大OOD召回率)。在检测器最大能力之外的OOD召回点(例如,图2中的_r_={0.9,0.95,1}),作者认为ID-mAP=0。

4 OSR-ViT Modular Detection Framework

图3:作者的OSR-ViT框架由两个独立训练的模型联合工作组成:(1)一个与类别无关的 Proposal 网络,以及(2)一个以ViT为基础的基础分类器。这使得新模型或未来模型的无缝集成成为可能。

一个有效的OSODD模型必须在两个关键子任务上表现出色:(1)在图像中定位所有目标,(2)在ID类和OOD类之间进行准确区分。因此,作者提出的解决方案是一个模块化的双分支框架,它结合了一个任意的强 Proposal 网络和一个利用任意的基于Vision Transformer(ViT)[6]的分类器模块(见图3)。选择这种设计的一个重要原因是,在当今快速发展的ML环境中,模块化对于确保未来的兼容性至关重要。几乎每天都有新的最先进模型发布,这需要能够无缝切换解决方案的框架。这些基础模型的与任务无关的性质也是适应动态环境和任务的关键。这与开发需要额外超参数、正则化项和潜在假设的高度特定任务解决方案形成对比。作者从开创性的“带有CNN特征的区域”(R-CNN)模型家族[13, 14, 17, 43]获得灵感,将作者的解决方案称为带有ViT特征的开放集区域(OSR-ViT)。本节剩余部分详细介绍了 Proposal 网络(第4.1节)、基础分类器(第4.2节)和模型训练(第4.3节)。### Proposal 网络

整体开集目标检测与识别(OSODD)性能的上限直接取决于模型区分前景物体与背景的能力,因为如果一开始就没有提出真正阳性的区域,即使拥有一个完美的分类器,检测器也是无用的。开集目标 Proposal 的一个主要缺陷是过拟合到识别(ID)类别。像RPN [43]这样的基本有监督 Proposal 网络由于其判别性目标[24]而固有地过拟合。一些最近的研究尝试解决这个问题[24, 25],然而,已经表明,将这种专门的 Proposal 网络直接集成到端到端的开集/开放世界检测器中会导致整体性能更差[52, 61]。另一个主要缺陷是缺乏适应性。一个在实践中有用的OSODD Proposal 网络应该能够适应不同的应用需求[21]。例如,安全系统应该优先检测几个关键ID类别(例如,人、车)而忽略不相关的开集(OOD)物体。然而,家用机器人应该对罕见和未预期的物体类别具有更高的泛化能力。

在作者的OSR-ViT实例中,作者使用了一个可调的混合 Proposal 网络(THPN)[21]。THPN是一个基于CNN的先进的 Proposal 网络,它通过双重预测头学习一种混合的目标性表示。关键的是,THPN提供了一个单一的超参数

\lambda_{CLS}\in[0,1]

,它平衡了每个预测头的损失贡献和最终的置信度得分。

\lambda_{CLS}

设置得越大,结果模型就越倾向于ID偏见,这意味着模型在牺牲一些OOD目标的情况下,更倾向于检测ID目标。THPN还利用了一种自我训练优化过程[26],这显著提高了数据效率,使得在低数据量或半监督的设置下也能取得令人印象深刻的性能。作者强调,OSR-ViT用户可以无缝地选择并使用他们偏好的任何 Proposal 模型。例如,如果一个组织为特定的遥感任务开发了一个精致的 Proposal 网络,那么这个网络可以在这里被利用。

Foundational Classifier

近期大规模基础模型的兴起开始革新视觉AI的训练和部署流程。诸如CLIP [40] 和DINOv2 [39]等开源模型在数亿张图片上训练,耗时数万GPU小时。它们为用户提供即用的任务无关模型,只需经过最少的微调阶段即可使其任务特定,并且性能超过了监督专业模型。这种强大的性能归功于由视觉 Transformer (ViT)架构编码的高度表达性表示。然而,作者认为这些基础模型的真实力量远远超出了封闭集识别。作者的假设是,目标 Proposal 的高度描述性的ViT表示将有效实现ID和OOD分离。在这项工作中,作者使用DINOv2 [39]模型作为OSR-ViT中基础分类器的特征提取器。DINOv2在广泛的LVD-142M数据集[39]上进行训练,这意味着它完全能够很好地表示各种图像领域和目标类型。再次强调,作者鼓励用户在认为合适的情况下,除了DINOv2之外还可以即插即用地使用新的或自定义的基础模型。

如图3所示,输入图像首先由 Proposal 网络

\text{PropNet}(X):\mathbb{R}^{D}\rightarrow\{(p_{i}^{bbox},o_{i})\}_{i=1}^{100}

处理,该网络将一个D维输入图像

X

映射到

N

=100对目标 Proposal 框

p_{i}^{bbox}

及其对应的预测目标性

o_{i}

。然后从图像中裁剪出每个 Proposal 的像素区域,并将其调整到DINOv2模型可以接收的224x224分辨率。作者将这些调整大小后的 Proposal “图像”称为

p_{i}

。 Proposal 图像随后通过ViT特征提取器

V(p):\mathbb{R}^{224\cdot 224}\rightarrow\mathbb{R}^{d}

,其中

d

是ViT特征空间的维度。作者将 Proposal

p_{i}

的ViT表示称为

v_{i}

。作者在ViT特征提取器之上使用一个简单的2层全连接(非线性)模块

f(v):\mathbb{R}^{d}\rightarrow\mathbb{R}^{C}

以实现C路分类。每个 Proposal 的输出逻辑

f(v_{i})

随后被送入开放集分类器,后者做出最终的输出决策。

达到最终的检测涉及进行两个连续的预测。首先,作者必须预测一个 Proposal 是ID还是OOD。作者选择了一个后验的基于能量的OOD检测算法[31],该算法使用 Proposal 的的自由能量作为其ID分数:

E(v_{i};f)=-T\cdot\log\sum_{j}^{C}e^{f_{j}(v_{i})/T} \tag{2}

在公式中,

T

是一个温度参数。注意,对于给定的 Proposal ,这个能量分数越大,它就越有可能是一个ID类目标。如果

-E(v_{i};f)>\\text{ID\_THRESH}

,作者称第

i

个 Proposal 为ID目标;否则,作者称其为未知。在部署时,人们会使用一个验证集来选择一个合理的ID

\_

THRESH。

开放集分类器必须做出的第二个决定是最终的输出类别

c_{i}

和置信度分数

s_{i}

。图3在“最终输出决策”框中展示了这个决定。如果

p_{i}

被认为是OOD,则分配的类别标签是

c_{i}

= _unknown_,但如果被认为是ID,则

c_{i}=\arg\max(f(v_{i}))

。无论类别标签如何,置信度分数是 Proposal 网络预测的目标性

o_{i}

与ID类别上的最大Softmax置信度的乘积:

s_{i}=o_{i}\cdot\max(\text{Softmax}(f(v_{i}))). \tag{3}

请注意,许多现有工作[7; 8; 9]只是简单使用最大的Softmax得分进行OOD预测。虽然这对于二元的开放集分类任务(ID与非ID)可能是有效的,但并不适用于三元的开放集检测任务(ID与OOD与背景)。换句话说,仅仅因为一个 Proposal 没有显著激活任何单一ID输出节点,并不意味着它没有强烈的通用目标特征。因此,作者的得分测量

s_{i}

直接融入了来自类无关 Proposal 网络的目标性得分,这意味着ID和OOD预测的得分将更加适当校准。最后,作者重用 Proposal 网络预测的边界框作为最终的框预测。

Training

OSR-ViT之所以用户友好,很大程度上归功于其对 Proposal 网络和基础分类器的解耦训练。这使得用户可以轻松地融入新的自定义或现成的模型,用于这两个角色。在这项工作中,作者按照论文[21]中概述的流程优化了THPN。作者分两个阶段独立地适配基础分类器。在第一阶段,作者冻结了DINov2预训练的ViT,并使用交叉熵损失更新完全连接的分类器模块

f

,持续50个周期。为了在保持ViT预训练表示的表达性的同时提高模型的灵活性,然后作者进行了一个短暂的5周期微调阶段,在这个阶段中,作者以较小的学习率一起训练ViT和分类器模块。具体的实现细节和超参数可以在附录0.A中找到。

5 Experiments

为了评估模型在OSODD任务上的表现,作者创建了三个独立的基准,这些基准提供了比现有文献[5, 7, 9, 16, 35, 36]更多的多样性。第5.1节包含作者的自然图像基准,第5.2节包含作者的有限数据基准,而第5.3节涵盖了模型在船只基准上的性能表现。最后,在第5.4节中,作者对OSR-ViT方法进行了额外的分析。

Natural Imagery Benchmark

这个基准考虑了两个常见自然图像数据集之间的跨数据集迁移任务。第一个是在20类PASCAL VOC [11]训练数据集上训练,并在80类COCO [29]验证集上进行测试。在这种情况下,OOD类是COCO中非VOC的类别。第二个是在COCO训练集上训练,并在365类Objects365 [47]数据集的40,000张图像上进行测试。在这里,OOD类别是Objects365中非COCO的类别。由于Objects365的标签空间更为精细,作者将COCO类所有的同义词或下义词视为ID。表1包含了这个基准的结果。请注意,DINov2模型上的"-S", "-B", 和 "-L" 标识符表示ViT的大小。作者的OSR-ViT方法在两个任务的所有与OOD相关的指标上均优于所有 Baseline 。总体而言,与COCO

\rightarrow

Objects365相比,OSR-ViT在VOC

\rightarrow

COCO上的改进幅度更大。这是因为更强的监督 Baseline (例如,基于DETR的模型)可以在具有更多训练数据的任务中更好地学习ID类别的表示。

OSR-ViT在CA-AR方面显著优于所有基准线,展示了像THPN这样的非ID偏置 Proposal 网络的实用性。主要OWOD方法(ORE [23],OW-DETR [15]和PROB [61])的相对平庸的AOSP和CA-AR得分表明,OWOD任务的增量学习方面确实分散了对于相对较差的OOD召回的注意力,这证明了作者OSODD任务的需求。最后,在分类器可分离性方面(即,AUROC指标),OSR-ViT表现卓越。基于强大的ID得分分离(ID与OOD,ID与非ID)表明,ViT的强大细微表征允许优越的OOD可检测性,甚至与专门为这一能力设计的强正则化UAOD基准线(如VOS [9]和SIREN [7])相比也是如此。基于目标性的分离(OOD与BG,FG与BG)也比基准线要好得多,FG与BG的AUROC比最佳基准线(OLN)高出16.02%。

正如预期,DINOv2 ViT的规模与性能呈正相关,但即使是DINOv2-S也能在AOSP方面提供两项任务的最先进性能。在中等规模的VOC

\rightarrow

COCO任务上,最小的DINOv2-S仍然足以在分类器可分离性方面超过UAOD方法,但在更大的COCO

\rightarrow

Objects365任务上,需要更大的DINOv2-L来在ID与OOD AUROC方面击败SIREN-DETR [7]。作者特定的OSR-ViT配置的一个局限性是,它以略微降低封闭集ID-mAP为代价,换取了卓越的OOD召回率。作者的分析表明,这并不是由于基础分类器错误,而是由THPN Proposal 网络所做出的ID/OOD权衡。换句话说,在这些实验中,作者将THPN配置为

\lambda_{CLS}

=.10,这导致模型更偏向于OOD。在附录D中,作者探讨了

\lambda_{CLS}

的影响,并展示了ID-mAP的差距确实可以最小化。

Limited Data Benchmark

虽然在大规模基准测试上的表现很重要,但在许多场景和应用中,作者并没有可供使用的大量带有数十万注解的训练数据集。因此,作者设计了一个有限数据基准测试(Limited Data Benchmark),该测试在VOC

\rightarrow

COCO任务的半监督版本上评估模型。在这里,模型将在随机(类别平衡)的25%,50%,和75%的VOC训练注解集上进行训练,并在COCO验证集上进行测试。

图4将此基准测试的结果以AOSP与闭集ID mAP进行了可视化。附录E包含了完整的表格结果。在这个实验中,作者调整了OSR-ViT(-B)模型中的THPN

\lambda_{CLS}

参数。这一结果的关键结论是,当训练数据变得稀缺时,OSR-ViT比全监督模型更好地保持了ID-mAP和AOSP。实际上,最轻量级的OSR-ViT模型(THPN(

\lambda_{CLS}

=.10)+DINOv2-S),在仅用25%的VOC数据训练时,取得了20.6%的AOSP,这比任何在100% VOC数据上训练的基准方法都要高!还应该注意的是,在25%数据集上训练的OSR-ViT模型的CA-AR为38.4%,这实际上与在100%数据集上训练的最高性能基准(即OLN)相匹配。这种卓越的能力归功于作者的框架能够将专用 Proposal 网络和基础的ViT模型的全部潜力发挥在一个统一任务上。

正如上面第5.1节所讨论的,一些基于DETR的 Baseline 在闭集ID-mAP方面超过了作者的OSR-ViT配置。然而,这个具有挑战性的基准揭示了这些方法需要大量的训练数据才能达到这一性能水平。注意到,即使将标记的训练标注减少到原始数量的75%,这些模型的性能也会急剧下降。在类似于VOC25

\rightarrow

COCO这样的场景中,作者拥有的训练标注少于12,000个,这些方法实际上是无效的。最后,这些结果展示了THPN的

\lambda_{CLS}

参数的影响。一般来说,作者设置的

\lambda_{CLS}

越高,ID mAP也越高。在OSR-ViT模型中使用像THPN这样的可适应 Proposal 网络极大地提高了其灵活性,因为作者可以更有效地为给定的需求配置模型。

Ships Benchmark

图4:在受限数据基准测试的有限数据设置中,尽管监督学习方法表现挣扎,但作者的OSR-ViT模型保持了良好的性能。

作者的最终基准评估了在遥感图像领域的性能。作者考虑了ShipRSImageNet数据集[58],其中包含有50个细粒度船舶类别的沿海地区的鸟瞰图像。在这里,作者通过将所有“其他”船舶类别视为OOD,手动创建了ID/OOD类别划分。这个数据集的隐性挑战是,相对于自然图像基准(即,2000个船舶实例与47000个VOC实例相比),可用于训练的标注相对较少。表2包含了结果。即便在这个不同的领域,OSR-ViT在AOSP和CA-AR方面也超过了所有全监督 Baseline 。作者的方法在ID-mAP上略低于OLN,但比OLN的最佳后验OOD算法(Mahalanobis[27])高出了8.5%的AOSP。OSR-ViT的分类器可分离性也更为优越,特别是在基于目标性的可分离性方面。作者的方法在OOD与BG AUROC以及FG与BG AUROC方面,分别超过了最近的 Baseline (OLN)15.57%和19.67%!作者注意到,基于DETR的方法无法在这个较小规模的任务上收敛到合理的解决方案,突显了它们在许多设置中的局限性。

OSR-ViT Performance Analysis

OSR-ViT的模块化设计允许任意融合 Proposal 网络和特征提取器。在表3中,作者研究了作者基础配置的几个不同变体,使用THPN和DINOv2-B在VOC

\rightarrow

COCO任务上。尽管Energy算法在整体性能上表现最佳,但事后OOD算法的确切选择对性能没有巨大影响。FT

\rightarrow

No FT行代表作者的基础配置,但没有进行第4.2节描述的5轮端到端微调步骤。尽管这种微调不是必需的,但它确实提升了整体性能。当作者将THPN(

\lambda_{CLS}

=.10)替换为类无关的Faster R-CNN [43] Proposal 网络时,作者观察到AOSP和CA-AR明显下降,但由于Faster R-CNN固有的ID偏差,ID-mAP有所提升。但需要注意的是,带有

\lambda_{CLS}

=.50的THPN可以超越Faster R-CNN,达到32.9的ID mAP。最后,作者比较了将DINOv2基础模型替换为相同大小的CLIP [40]模型的影响。作者发现,采用CLIP的OSR-ViT在各项指标上均未达到标准水平。

图5展示了四个不同模型在VOC

\rightarrow

COCO任务上倒数第二层目标特征的2D t-SNE可视化[33]。请注意,带颜色的圆形、星形和三角形标记代表与ID GT 物体正面匹配的检测,苹果绿色正方形代表与OOD GT 物体匹配的检测,黑色正方形代表与背景匹配的检测。最终,一个模型的表现与其特征的可分离性直接相关,更紧凑的ID和OOD簇表明模型更好。这项分析的关键结论是,DINOv2特征提取器在将OOD目标与ID目标和背景分离方面,比 Baseline 模型做得要好得多。这些发现支持了第4.2节的假设:DINOv2表示确实足够细腻,不仅能区分ID和OOD目标,还能区分不同的OOD目标。这种表示质量通常仅靠特定任务的监督训练是无法实现的。最后,这种OOD可分离性使得作者的方法成为OWOD任务的强大起点,该任务逐步学习新类别,但作者将其留作未来工作。关于模型大小和可视样本的附加分析在附录中。## 第6章 结论

随着机器学习在作者的现实世界系统中变得越来越普遍,将安全性置于模型设计的前沿至关重要。在这项工作中,作者识别出现有“开放集目标检测”模型的严重漏洞:对未知物体的检测并未被明确优先考虑。作者利用这一发现来激发一个新的OSODD任务,并创建了一个全面的评估协议,允许不同相关研究作品首次直接相互比较。作者还引入了一个模块化的二分OSR-ViT框架,该框架利用一个自包含的 Proposal 网络和一个现成的ViT模型,取得了远超监督 Baseline 的性能。作者的OSR-ViT方法采纳了近期推动使用互联网级基础模型作为特定任务应用基础的潮流,通过允许以即插即用的方式整合这些模型。作者认为这种解决方案不仅更强大,而且更能面向未来,因为它防止了快速过时。

Appendix

A. Implementation Details

预测分区。 为了计算AUROC指标而不需要互斥的ID/OOD验证集,作者使用了预测分区操作(参见第3.2节)。此操作根据每个预测与混合测试集(即图像中包含ID和OOD目标)中的 GT 框的IoU重叠来将其匹配到相应的ID/OOD/背景(BG)箱。与某个 GT 框的交并比(IoU)

\geq 0.5

的预测与相应的 GT 匹配,而与任何 GT 框的IoU

<0.2

的预测被认为是背景匹配。IoU在

0.2\leq

IoU

<0.5

之间的预测被忽略。请注意,在评估期间,作者总是假设某些类别的子集是OOD,因此作者也有OOD目标的 GT 匹配。

** Proposal 网络。** 在这项工作的绝大部分中,作者使用了THPN [21] 的默认配置。作者的THPN使用带有特征金字塔网络(FPN)[28]的ResNet-50 [18]作为基础网络。作者在初始标记的训练集上训练16个周期,然后进行2个阶段的自我训练,这比原始集增加了30%的伪标签。在推理过程中,THPN每张图像输出100个 Proposal 。

基础分类器。 在区域提取操作中,作者裁剪出比预测的建议框大10%的区域,以捕捉更多周围上下文信息。在调整裁剪区域大小时,作者首先将较长的一边调整为224像素,然后在较短的一边使用零填充至224像素,以保持区域的宽高比。作者的基础分类器由官方仓库提供的现成的DINOv2模型[39]组成,其后是一个2层全连接头

f

,以方便进行C路分类。这个分类头包括ReLU激活函数以引入非线性,以及批量归一化[22]操作。在训练时,作者使用标准的交叉熵损失、SGD优化器和少数类过采样来处理数据不平衡。如第4.3节所述,作者分两个阶段训练这个基础分类器。首先,作者冻结DINOv2预训练的ViT

V

,仅更新

f

,训练50个周期,学习率为0.1。这里,作者使用256的批量大小,并在第20和第35周期将学习率降低10倍。接下来,作者进行一个短暂的5周期微调阶段,在这个阶段中,作者同时训练

V

f

,批量大小为42(以适应设备),学习率为0.000001。在这两个阶段中,作者将SGD动量设置为0.9,并使用强度为0.0001的

L_{2}

正则化。作者使用一个单独的V100 GPU来训练每个基础分类器。

作者将在接受后开源作者的代码。

B. Classifier Separability Analysis

图6展示了在VOC

\rightarrow

COCO任务上训练的四个不同模型的ID得分直方图,这些直方图来自于ID、OOD和BG匹配的测试集 Proposal 。这些直方图提供了AUROC指标所表明内容的可视化。

顶部行显示了ID得分的分布。在这种情况下,作者希望ID匹配的预测(蓝色分布)具有最大的得分(即最靠右)。请注意,作者的OSR-ViT方法在ID可分性方面表现最佳,并且相比于MSP [19]和SIREN [7],显示出更好的校准。底部行显示了目标性的分布。在这里,作者希望ID和OOD匹配预测的目标性高于背景匹配预测。请注意, Baseline 方法很难将OOD目标与背景区分开来。然而,作者的方法,凭借其独立的THPN Proposal 网络[21],学习到了更好的目标性表示,使得在OOD与背景以及前景与背景的可分性方面表现更优。## 附录C 参数数量讨论。

在检测器中使用基础ViT模型的一个缺点是,与许多基于CNN的替代方案相比,它们的体积相当大。因此,一个公平的问题是:OSR-ViT的优越性能是否仅仅是源于其参数数量更多?在本节中,作者通过训练一些具有更大的ResNet-152 [18] 主干网(与文献中通常使用的标准ResNet-50相比)的 Baseline 来研究这个问题。结果包含在表4中。作者发现,简单增加基于CNN的完全监督方法的参数数量可以提高ID-mAP,但_不_能提高AOSP(开集性能)。实际上,在作者的测试中,更大的CNN会导致AOSP降低。作者认为,向一个本质上具有ID偏见(ID-biased)的模型增加参数只会使模型更加ID偏见。即使是作者的最轻量级OSR-ViT与DINOv2-S配合使用,也实现了比放大的 Baseline 更好的OSODD性能。需要注意的是,作者还尝试用更大的RN152主干网训练不同的 Baseline ,但遇到了问题。例如,DETR和VOS训练速度过慢,而SIREN模型未能收敛到一个好的解决方案。这进一步支持了作者的观点,即OSR-ViT的可模块化即插即用的框架在优化上要轻松得多,因为基础模型只需要极小的微调阶段就能有效。

Appendix D Impact of THPN's

\lambda_{CLS}

Parameter

第5节中提到的OSR-ViT的一个著名限制是与某些 Baseline 相比,封闭集的ID-mAP较差。根据作者的分析,这种差距是由于开放式 Proposal 网络必须做出的自然权衡。直观地说, Proposal 网络越不偏向于ID,ID召回率就越低(但OOD召回率会显著提高)。由于THPN的可适应设计,作者可以通过其

\lambda_{CLS}\in[0,1]

参数轻松调整其偏差。因此,如果某个应用需要,作者可以轻松缩小ID-mAP的差距,同时仍然保持整体的开集性能。表5包含了在每个基准任务上扫描

\lambda_{CLS}

的结果。如预期,作者设置的

\lambda_{CLS}

越高,模型预测更多ID目标的可能性越大,从而ID-mAP越高。然而,作者发现,在某些任务中,设置

\lambda_{CLS}

过高将导致ID-mAP略微变差。相反,当作者设置

\lambda_{CLS}\approx 0

时,作者实现了更好的OOD Proposal 召回率,意味着在大多数情况下,AOSP和CA-AR更好。

Appendix E Full Limited Data Benchmark Results

在本节中,作者提供了有限的 数据基准测试(详见第5.2节)的完整表格结果(见表6)。这次实验的关键结论是,相比于完全监督模型,作者的OSR-ViT框架在低数据环境下能更好地保持性能。特别是要注意,仅用VOC训练标注的25%训练的OSR-ViT,其表现超过了所有在100%标注上训练的 Baseline 模型!

Appendix F Prediction Samples

图7和图8分别包含了VOC

\rightarrow

COCO和Ships任务的预测样本。OSR-ViT显示出更好的OOD召回率以及优越的ID与OOD分离特性。请注意,作者使用了一个小的验证集来确定制作这些图表的“最优”部署阈值。

Appendix G Task Details

表7提供了作者在这篇论文中考虑的不同基准任务的详细信息。请注意,作者研究的任务范围比该领域其他文献更为多样。

图7:在VOC

\rightarrow

COCO任务上的预测样本。注意作者的OSR-ViT模型如何检测到更多的OOD目标,并在诸如斑马与马、雕像与人等情况下实现了更好的细粒度OOD可分离性。

图8:在船只任务上的预测样本。请注意作者的OSR-ViT模型如何泛化到OOD船类别,并且在区分ID与OOD船只方面做得更好。

参考

[1].OSR-ViT: A Simple and Modular Framework for Open-Set Object Detection and Discovery.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-04-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 集智书童 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 Limitations of Existing Work
  • 3 Open Set Object Detection and Discovery
    • Problem Formulation
      • Evaluation Protocol
        • 3.2.2 Computing AUROC.
        • 3.2.3 The AOSP metric.
    • 4 OSR-ViT Modular Detection Framework
      • Foundational Classifier
        • Training
        • 5 Experiments
          • Natural Imagery Benchmark
            • Limited Data Benchmark
              • Ships Benchmark
                • OSR-ViT Performance Analysis
                • Appendix
                  • A. Implementation Details
                    • B. Classifier Separability Analysis
                    • Appendix D Impact of THPN's
                    • Appendix E Full Limited Data Benchmark Results
                    • Appendix F Prediction Samples
                    • Appendix G Task Details
                    • 参考
                    领券
                    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档