简读分享 | 汪逢生 编辑 | 赵晏浠
论文题目
PromptDet: Towards Open-vocabulary Detection using Uncurated Images
论文摘要
这项工作的目标是建立一个可扩展的pipeline,使用零手动标注将目标检测器扩展到新的/看不见的类别。为了实现这一点,作者做出了以下四项贡献:(i)为了追求泛化性,作者提出了一个两阶段的开放词汇目标检测器,使用来自预训练视觉语言模型的文本编码器对类别无关的物体提议区域进行分类;(ii) 为了将RPN 提议区域的视觉潜在空间与预训练文本编码器的潜在空间配对,作者提出了区域prompt学习的想法,以将文本嵌入空间与物体区域的视觉特征对齐;(iii) 为了扩大学习过程以检测更广泛的类别,作者通过一种新颖的自训练框架利用可用的在线资源,该框架允许在大量嘈杂的未经处理的网络图像上训练所提出的检测器。最后,(iv)为了评估作者提出的检测器,称为PromptDet,作者对具有挑战性的 LVIS 和MS-COCO数据集进行了广泛的实验。与现有方法相比,PromptDet使用更少的额外训练图像和零手动标注,表现出卓越的检测性能。
论文链接
https://arxiv.org/abs/2203.16513