首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >前沿 | Kaiming He和Ross Girshick大神最新力作TensorMask深入解读

前沿 | Kaiming He和Ross Girshick大神最新力作TensorMask深入解读

作者头像
马上科普尚尚
发布2020-05-11 16:14:11
1.2K0
发布2020-05-11 16:14:11
举报

论文名称:TensorMask: A Foundation for Dense Object Segmentation

论文链接:https://arxiv.org/pdf/1903.12174.pdf

编者推荐理由


对于目标检测任务而言,存在两种目标检测器,单阶段检测器(Single-Stage DetectorSSD系列)和多阶段检测器(Faster-RCNN系列),这两类检测器目前能取得比较接近的性能。

然而对于实例分割领域而言,目前主流的霸占COCO榜单的基本上都是基于Mask-RCNN(先检测后分割)的方法,而单阶段的实例分割方法性能相比Mask-RCNN差距比较大。为了填补这一差距,本文作者提出一种全新的基于密集滑窗的实例分割框架。文中有两大亮点,分别陈述如下:

1)提出了4D的张量(V,U,H, W)来表示所有可能的掩码;当窗口大小为(V,U)时,位置空间(H,W)中的每个点都会对应一个掩码窗口(V,U),每个(V,U)平面就是一个掩码。对于其中的某(v,u,y,x)点的值代表着在以(y,x)为中心、窗口大小为(αV,αU)的掩码中位于(y+αv,x+αu)的点是掩码的概率值;这种结构化的高维表示更有助于实例分割;α是一个比例因子。

2)提出了张量双尺度金字塔(Tensor bipyramid)。这里的双金字塔是指同时对掩码空间(V,U)和位置空间(H,W)进行尺度金字塔且方向相反。这是因为目标检测中的边界框的表示是跟尺度无关的,即不管是哪个尺度的输出,其维度都是固定的4维。而实例分割中的掩码表示显然应该跟尺度相关,掩码表示应该满足:大物体拥有高分辨的掩码和粗略的空间位置信息,而小物体拥有低分辨率的掩码但是精细的空间位置信息。因此提出了双尺度金字塔来应对实例分割中的多尺度。

摘要


在目标检测任务中,基于滑窗的单阶段目标检测器(one-stage detector)近些年取得很大的进展,这类目标检测器在规则的网格上为每个位置都预测密集的边界候选框。

然而在实例分割任务中,主流的方法(以Mask-RCNN为代表的工作)还是先检测边界框,然后裁剪并进行目标分割。在这篇工作中,我们研究了一种基于密集滑窗的实例分割(dense sliding-window instance segmentation)的实例。

我们的核心观察是, 实例分割这样任务与其他密集预测任务(语义分割,目标边框预测)主要区别在于:前者在每个空间位置上的输出本身就是一个具有空间维度的几何结构输出。为了公式化这一点,我们提出了一种通用的框架(TensorMask 张量掩码), TensorMask通过4D 张量来捕捉这种几何结构并提出相应的4D张量算子。

我们的实验表明相比那些没有考虑这一几何结构特性的方法,基于4D张量的方法会取得很大的效果提升,甚至取得比肩Mask-RCNN的效果。这样的实验结果表明了TesorMask可以作为密集滑窗实例分割领域新颖的基准方法,且为实例分割提供了一个新的互补的理解角度。

简介


滑窗(通过在图片中滑动窗口来寻找目标)是视觉任务里面最早且非常成功的方法,并且可以天然地跟卷积神经网络联系起来。 虽然目标领域(Faster-RCNN)和实例分割领域(Mask-RCNN)都有先基于滑窗得到初始候选区域,然后在初始结果上进行精调/目标分割的方法,但是在实例分割领域并不存在像SSD系列和RetinaNet等方法,这些方法则聚焦于直接利用滑窗来进行密集目标边框预测并且取得不错的进展,而基于密集滑窗的实例分割方法并没有得到足够的关注。因此本文了一种基于密集滑窗的实例分割基准方法来填补这一空缺。

本文的主要insight就是定义了一种新颖的密集掩码的表示方法并利用神经网络实现它。在目标检测任务中,边界框的表示是低维、固定的和与尺度无关的,不同的是,实例分割中的分割掩码表示则需要更结构化的表示。

先前的DeepMask 和InstanceFCN 都是利用非结构化的3D张量来表示并将掩码包装进了通道维度上(通道维度并无清晰的几何意义)(将二维掩码铺成了一个维度,且这个维度的信息却不表示同一个点,丢失了结构信息,且不利于进行操作),而且充分无法利用结构化的信息,因此文本的核心思想就是用一个高维的结构化张量(4D张量)来表示每个位置的2D掩码。

在我们的TensorMask 中, 一个4 维张量(V,U,H,W)用于表示掩码,H 和 W 表示目标的位置,而 V 和 U 表示掩码在相对位置的概率值。我们的网络能够直接在(V,U)维度上进行有几何意义(坐标变换、缩放和构建尺度金字塔)的操作。

作者还提出了一个种基于TensorMask 框架的尺度金字塔, 即张量双尺度金字塔(Tensor bipyramid),如下公式所示,

其中k表示尺度索引。该金字塔操作能够同时获得(H,W)和(V,U)的几何空间尺度金字塔。Tensor Bipyramid正好使得大物体拥有高分辨的掩码和粗略的空间位置信息,而小物体拥有低分辨率的掩码但是精细的空间位置信息。

方法部分


掩码的张量表示

TensorMask框架的核心思想就是利用结构化的高维张量来表示掩码并配合密集滑窗来解决实例分割。接下来我们先介绍几个重要的概念

单维长度(Unit Length):

a) H, W轴的单位可以表示为

,表示在原图的步长,例如res_block4的

b) V,U轴的单位可以表示为

,表示在相当于中心点偏移的单位数值。

自然表示

对于一个4D的张量(V, U, H,W), 它在(v,u,y, x)处的取值表示在以(y,x)为中心的掩模窗口(其大小为

)中位于(y + αv, x + αu)的掩模概率值。

其中α=

,且

对齐表示(Aligned representation)

在自然表示中, (v,u,y, x)实际代表的是位于(y + αv, x + αu)的掩码值,这跟(y, x)之间是存在偏移的,在执行卷积操作是先进行对齐是可以提升性能的(这跟ROIAlign的动机相同)。因此我们也提出一种针对密集掩码的逐像素的对齐表示,定义如下:

即移动它的中心位置,使得代表的位置跟实际位置不存在偏移。 参考图3

坐标变换(coordinate transformation)

主要用于自然表示和对齐表示之间的转换,文中给出的是简化的情况即

,如下

Align2nat:

Nat2align:

其他一般情况请参考原文附件

上采样变换(Upscaling Transformation)

上采样操作是指用粗糙的

来构造一个更加精细的

。具体操作如下:

张量双尺度金字塔(Tensor Bipyramid)

在目标检测中的,界框的表示是跟尺度无关的,不管尺度是多大,边界框的表示都是固定维数的。但是在实例分割中,掩码的表示跟尺度相关的,即希望大物体的掩码比较大,而小物体的掩码表示比较小,使用同样大小(V,U)来表示不同尺度的掩模显然不合理。我们希望大物体拥有高分辨的掩码和粗略的空间位置信息,而小物体拥有低分辨率的掩码但是精细的空间位置信息。

因此提出了张量双金字塔,即同时对(V,U)和(H,W)做尺度金字塔,而且两者方向相反。具体表示如下:

实现Tensor bipyramid可以基于如下操作:

掩模预测网络(Mask Prediction Heads)

在FPN的各个尺度输出后面,一般都会接三种子网络:掩码预测网络(mask prediction head),边框回归网络(box regressionhead)和类别判断网络(class prediction head)。针对TensorMask,我们设计如下两类掩模预测网络:

1) 四组baseline

2) Tensor bipyramid head

在保证FPN的不同尺度的输出上采样到同意尺度的情况下,对于相同的(C,H,W)进行张量双金字塔,来替换原先的特征金字塔,参考图8和图7。

训练细节


标签分配(Label assignment)

标签分配满足如下三个条件的设置为正样本,否则为负样本

(1) 包含性:预测掩码n必须包含groudtruth m,且m的最长边必须大于等于n的最大边长的1/2;

(2) 中心特性:m的边界框中心必须在预测掩码n的窗口中心的一个单位距离内

(L2距离);

(3) 唯一性: 不存在其他的ground truth 也满足(1)(2)。

原文如下:

实验细节


第一组实验

当(V,U)尺度很大15×15 且不考虑尺度变化的情况下,两者效果是相当的,

第二组实验

表明了对齐的特征表示对尺度不敏感,而自然表示对尺度很敏感,随着上采样倍数的增加,两者的差距越来越大。这里说明一下,λ越大表示mask prediction head 在经过1×1conv的时候输出通道数C就越小,也就是掩码的尺度从(V,U)变成了(V/λ,U/λ),λ越大,自然表示的性能会越不如对齐表示。见表2(a)

第三组实验

在对掩码(V,U)进行插值的方式比较,效果上双线性插值会优于最近邻插值(跟Mask-RCNN的结论一致)

第四组实验

文中提出的Tensor bipyramid的有效性验证

第五组实验

掩码窗口的数目(正如目标检测中的anchor的数目),增加掩码窗口的数目可能提高性能。

第六组实验

与Mask-RCNN比较取得相当的结果

结论


本文首次提出了一种密集滑窗的实例分割基准方法TensorMask,并且取得了与精心设计的Mask-RCNN(先检测后分割)接近的定量效果和定性的视觉效果。该方法为实例分割提供了一种互补的理解方式。我们希望该方法能够开辟一个新的方向并使得单阶段和多阶段的实例分割能同时取得蓬勃的发展。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-03-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能前沿讲习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档