前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >零样本目标检测:鲁棒的区域特征合成器用于目标检测(附论文下载)

零样本目标检测:鲁棒的区域特征合成器用于目标检测(附论文下载)

作者头像
计算机视觉研究院
发布2022-01-28 19:39:10
4620
发布2022-01-28 19:39:10
举报

论文地址:https://arxiv.org/pdf/2201.00103.pdf

零样本目标检测(Zero-shot object detection)旨在结合类语义向量来实现在给定无约束测试图像的情况下检测(可见和)未见过的类。

一、前言

在这项研究中,研究者揭示了该研究领域的核心挑战:如何合成与真实样本一样具有类内多样性和类间可分性的鲁棒区域特征(对于未见对象),从而可以实现强大的未见目标检测器。

为了应对这些挑战,研究者构建了一个新颖的零样本目标检测框架其中包含一个类内语义发散组件和一个类间结构保留组件。前者用于实现一对多映射,从每个类语义向量中获取不同的视觉特征,防止将真实的看不见的物体误分类为图像背景。而后者用于避免合成特征过于分散而混淆类间和前景-背景关系。

为了证明所提出方法的有效性,对PASCAL VOC、COCO和DIOR数据集进行了综合实验。值得注意的是,新提出的方法在PASCAL VOC和COCO上实现了最先进的性能,并且是第一个在遥感图像中进行零样本目标检测的研究。

二、背景

随着CNNTransformer等深度学习技术的快速发展,目标检测研究领域取得了讯飞的进步。尽管现有方法实现的检测性能看起来很有希望和令人鼓舞,但在实际场景中应用它们存在一个隐藏的缺点——主流检测方法对要检测的类别有严格的限制。

一旦模型被训练,它只能识别出现在训练数据中的物体,而其他出现在测试图像中但在训练过程中看不到的物体会极大地混淆模型,导致无法避免的检测结果错误。为了解决这个问题,近年来提出了零样本目标检测(ZSD)的任务。目标是使检测模型能够预测在训练期间没有任何可用样本的看不见的对象。

三、新框架分析

在这项工作中研究问题的插图。在实际情况下,样本构建的特征空间显示出较高的类内多样性,但仍具有类间可分离性,如a所示,而现有方法学习的合成视觉特征空间要么类内多样性不足(如b所示),或具有过多的类内多样性,使类间不可分割(如c所示)。

上图显示了提出的ZSD总体框架。可以看出,它包含一个目标检测模块和一个域变换模块。目标检测模块是一个Faster-RCNN模型,以ResNet-101作为主干。

首先,我们用看到的图像及其相应的groundtruth注释来训练Faster-RCNN模型。获得模型后,可以用它来使用RPN为所见类提取区域特征。其次,我们训练区域特征合成器来学习语义词向量和视觉特征之间的映射。然后,使用学习到的特征合成器为看不见的类生成区域特征。通过这些合成的未见区域特征及其相应的类别标签,我们可以为未见类别训练未见分类器。最后,我们更新Faster-RCNN模型中的分类器,以实现ZSD任务的新检测器。

整个训练过程也在Algorithm 1中进行了详细说明。请注意,新提出的方法核心是如何学习统一的生成模型来学习视觉域和语义域之间的关系。具体来说,研究者设计了一个统一的区域特征合成器,用于在现实世界检测场景中进行特征合成,其中包含一个类内语义发散组件和一个类间结构保持组件。

四、实验及可视化

Comparison of mAP at IoU=0.5, under ZSD and GZSD settings on PASCAL VOC dataset

Comparison of Recall@100 and mAP at IoU=0.5 over two seen/unseen splits, under GZSD setting on MS COCO dataset

PASCAL VOC、MS COCO(48/17和65/15)和DIOR数据集的定性结果。对于每个数据集,第一列和第二列分别是ZSD和GZSD的结果。看到的类用绿色表示,看不见的用红色表示。

© The Ending

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-01-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 计算机视觉战队 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像识别
腾讯云图像识别基于深度学习等人工智能技术,提供车辆,物体及场景等检测和识别服务, 已上线产品子功能包含车辆识别,商品识别,宠物识别,文件封识别等,更多功能接口敬请期待。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档