前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >RDSNet:统一目标检测和实例分割的新型网络

RDSNet:统一目标检测和实例分割的新型网络

作者头像
AI科技评论
发布2020-05-14 17:38:21
1.4K0
发布2020-05-14 17:38:21
举报
文章被收录于专栏:AI科技评论AI科技评论

本文对《RDSNet: A New Deep Architecture for Reciprocal Object Detection and Instance Segmentation》进行解读,论文提出了用于统一目标检测和实例分割的新型网络 RDSNet。

作者 | Bbuf

编辑 | 丛 末

论文地址:https://arxiv.org/abs/1912.05070

开源地址:https://github.com/wangsr126/RDSNet


1

摘要

目标检测和实例分割是两项基本的计算机视觉任务。它们之间有着密切的联系,但是之前的大多数工作中尚未讨论它们的关系。

本文提出的 RDSNet,是一种用于统一目标检测和实例分割的新型网络。

为了完成这两个任务,本文设计了一个双流结构来共同学习目标级(BBox)和像素级(分割掩膜)特征。在这个结构中来自两个流的信息交替融合,即目标级别的信息将实例和位移信息引入到了像素级别,而像素级别的信息则改善了目标级别上的定位精度。

具体来说,一个相关性模块和一个剪切模块被提出来生成实例掩膜,另外提出了一个基于掩膜的精炼边界框模块。在COCO数据集上进行的大量实验分析和比较证明了RDSNet的有效性。

2

介绍&贡献

以目标检测为例,下面Figure1的(a)(b)检测出的框偏小,(c)(d)检测出的框偏大,如果我们充分利用目标检测和实例分割任务之间的相互关系,可以轻松纠正大多数这些错误。

而对于实例分割任务来讲,旨在进一步预测类别之外的每个目标的像素二值掩膜图。大多数实例分割都是Two-Stage的,也即是针对每个目标候选框分别生成掩膜。这种实例分割框架(典型的如Mask-RCNN)非常依赖目标检测的准确性。

基于上面的观察,目标检测和实例分割有很大的联系,并且是可以相互促进的,而这一点几乎是没有相关研究的。因此,本文提出了RDSNet来共同学习目标级(BBox)和像素级(分割掩膜)特征。

本文的主要贡献为,探索了目标检测和实例分割任务之间的相互关系并提出了一个端到端的RDSNet,以相互利用目标检测和语义分割任务的特征,证明了多任务融合的有效性。

3

方法

RDSNet的整体结构如Figure2所示。

RDSNet的整体结构

3.1 双流结构

RDSBet的核心是双流结构,即目标流和像素流。这两个流共享同一个FPN骨干网络,然后分开处理每种任务。目标流关注目标级别的信息,包括目标的类别和位置等,而像素流的主要关注的是像素级信息并且遵循了FCN的设计。

3.2 目标辅助实例分割

这一小节介绍了一种通过将目标级信息和新设计的相关性/裁剪模块一起使用来产生实例分割掩膜的新方法。从实例无关到实例感知 实例分割的目的是为每个像素分配一个类别,但是由于2D图像中目标的数量和位置不确定,因此经常会出现模棱两可的情况,即无法使用像素的预定义类别。一个可能的解决方案是利用目标级信息来感知实例。为此,相关性模块被设计为根据像素表示之间的相似性将每个像素链接到其对应的实例,分别从目标流和像素流中学习。给定一个目标,我们用来表示一个目标的特征,其中表示目标流中目标的特征,是这个表示的维度。然后,的维度表示我们将前景和背景纳入到考虑范围中。类似地,我们把整张图像的像素表示写成:,其中表示来自像素流的特征图,和是的尺寸。

相关性模块的目的就是评估和的相似性,相关性操作被如下定义:

其中,表示卷积算子。有个通道的的相似度图可以看作对于目标的像素级的前景及背景概率响应图。在训练阶段,逐像素的交叉熵损失被应用在上。对于图像中的所有目标,分别并同步地重复相关性操作。相关性模块使得掩膜生成器可以端到端的训练。从某种意义上来说,这里具有相关性方法的训练过程类似于Metric Learning,也即是说会将前景像素的表示拉向特征空间中其对应的目标表示,并将背景像素推开,如Figure3所示。

从平移到平移 在经过相关性模块之后一般就是将目标框进行裁剪(除了目标框之外其它像素都置为背景)然后仅仅在目标框范围内进行逐像素分类,但这会使得实例掩膜图受到定位误差的影响。为了解决这个问题,通过扩展目标检测框来作出折衷,并且使得足够远的像素不参与实例分割。总结下来就一句话,扩展目标检测框用于实例分割缓解定位不准的问题。另外还使用了OHEM策略来缓解前景背景像素不均衡的问题。

3.3 掩膜辅助目标检测

在生成了掩膜之后,就可以确定一个刚好包含掩膜的矩形区域,这可以用来辅助检测流中的目标定位。尽管回归边界框或许会有定位错误,但本文认为它们在某种程度上仍为边界框提供了合理的先验。因此,我们的公式结合了检测和分割结果。具体点,我们将边界框坐标视为离散变量,从概率的角度来看,目标边界位置是所有可能边界所在坐标的argmax值,即:

其中,是左边界水平坐标的离散随机变量,是等式(1)中的前景通道,所以为的通道都被移除了,然后表示给定相应实例掩膜的后验概率。下面,我们仅以左边界为例,同时也可以类别其它的边界。遵循贝叶斯公式,我们有:

其中和是相应的先验概率和似然概率。假设边界仅仅与中每一行的最大值有关,并且只对相邻像素产生产生影响,那么似然概率可以表示为:

其中,。是超参数,描述边界对其相邻像素的影响范围。理想情况下,边界上的像素只影响最邻近的2个像素,在BBox外面的像素概率为0,在BBox里面的像素为1。但由于分割掩膜边缘通常不是很尖锐,所以想给一个明确的公式很困难。所以这里使用一个尺寸为的一维卷积来估计,后面跟着一个sigmoid函数用来归一化。对于,我们使用一个一个高斯分布:

其中是归一化系数。显然,边界位置的分布和实例尺度有关,因此我们设置:

其中表示BBox的宽度,表示回归框左边界的水平坐标,可以看到一个更小的表示一个更高的回归边界权重。在训练过程中,将GT按照长宽方向转换为One-Hot编码形式,并使用交叉熵损失来训练上述坐标分类任务。

3.4 损失函数

RDSNet的损失函数可以表示为:

可以看到整个任务的损失主要包含,分类,定位和分割损失,当L训练收敛之后还要优化Figure2中展示的MBRM中的损失,也就是3.3节描述的,剩下的和分别代表回归损失和分割损失的平衡系数。

4

实验结果

下面的Table3展示了相比于YOLACT,本文的RDSNet提升了近2个mAP值,证明了这种方法的有效性。

实验结果

5

可视化结果

下面的Figure4展示了一个对比可视化结果,可以看到RDSNet的预测结果更好。

6

结论

在分析了目标检测和实例分割的相关性后,本文以此为出发点提出了一个让目标检测和实例分割互惠的新网络RDSNet,在COCO数据上的测试结果表明了这一网络的有效性。并且本文证明了多任务融合的有效性,可以给将来的检测分割方面的工作一定启发。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-05-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 3.1 双流结构
  • 3.2 目标辅助实例分割
  • 3.3 掩膜辅助目标检测
  • 3.4 损失函数
相关产品与服务
图像识别
腾讯云图像识别基于深度学习等人工智能技术,提供车辆,物体及场景等检测和识别服务, 已上线产品子功能包含车辆识别,商品识别,宠物识别,文件封识别等,更多功能接口敬请期待。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档