CVPR 2018 | 优于Mask R-CNN,腾讯优图提出PANet实例分割框架

选自arXiv

作者:Shu Liu 等

机器之心编译

参与:刘晓坤、路雪

近日,港中文联合腾讯优图提出了新型实例分割框架 PANet,该网络通过加速信息流和整合不同层级的特征,可以极大提高生成预测掩码的质量。PANet 在 COCO 2017 挑战赛的实例分割任务中取得了第一名,优于 COCO 2016 实例分割挑战赛冠军和 Mask R-CNN。

引言

实例分割是最重要、最具挑战性的任务之一。该任务的目的是预测类别标签和像素级实例掩码以定位图像中不同数量的实例。实例分割对自驾汽车、机器人、视频监控等很有用。

由于深度卷积神经网络的助力,人们提出了多种实例分割的框架 [21,33,3,38],其性能也提升得很快 [12]。Mask R-CNN [21] 是一个很简单有效的实例分割框架。基于 Fast/Faster R-CNN [16,51],研究者还提出了全卷积网络(FCN),FCN 结合边框回归和分类网络用于预测掩码。为了获得足够高的分割性能,研究者利用特征金字塔网络(FPN)[35] 来提取网络内部的特征层级,其中增强了自上而下的路径(具备侧向连接)以传播语义较强的特征。

近期发布的新数据集 [37,7,45] 为算法提供了很大的提升空间。COCO [37] 由 20 万张图像构成,每张图像都包含了空间布局复杂的多个实例。与此不同,Cityscapes [7] 和 MVD [45] 的每张图像都是包含大量交通参与者的街景,因此这些数据集会出现很多模糊的、高度遮挡以及非常小的实例。

研究者提出了多个原则,用于设计既可以执行图像分类又可以执行目标识别的网络。例如,通过残差连接 [23,24] 和密集连接 [26] 缩短信息路径,使信息更有效地传播。此外,通过分离-转换-融合策略创建并行路径以增加信息路径的灵活性和多样性也大有裨益 [61, 6]。

研究发现

本文研究者指出当前最优的 Mask R-CNN 中的信息传播还可以进一步优化。具体来说,低层级的特征对于大型实例识别很有用。但最高层级特征和较低层级特征之间的路径很长,增加了访问准确定位信息的难度。此外,每个建议区域都是基于从一个特征层级池化得到的特征网格而预测的,此分配是启发式的。由于其它层级的丢弃信息可能对于最终的预测还有用,这个流程还有进一步优化的空间。最后,掩码预测仅在单个视野上执行,无法获得更加多样化的信息。

贡献

受到这些理论和观察的启发,本文作者提出了新的实例分割框架 PANet,如图 1 所示。

首先,为了缩短信息路径和用低层级的准确定位信息增强特征金字塔,作者创建了自下而上的路径增强。实际上,文献 [44,42,13,46,35,5,31,14] 中的系统就使用了低层级的特征。而传播低层级特征来增强整个特征分层,从而提升实例分割质量的方向,尚未有人进行探索。

第二,为了恢复每个建议区域和所有特征层级之间被破坏的信息,作者开发了适应性特征池化(adaptive feature pooling)技术。这是一个简单的组件,可以将所有特征层级中的特征整合到每个建议区域中,避免了任意分配的结果。通过该操作,研究者创建了更简洁的路径(与 [4,62] 相比)。

图 1. 框架图示。(a)FPN 主干网络。(b)自下而上的路径增强。(c)适应性特征池化。(d)边框分支。(e)全连接融合层。注意:为简洁起见,(a)和(b)中省略了特征图的通道维度。

最后,为了捕捉每个建议区域的不同视野,研究者使用小型全连接层来增强掩码预测,作为对 Mask R-CNN 所用的 FCN 的补充。通过结合这两种视野的预测结果,网络输出的信息多样性有所改善,掩码质量有所提升。

目标检测和实例分割共享前两个组件,这使得二者性能均有明显提升。

实验结果

PANet 在多个数据集上达到了顶尖的性能。研究者使用 ResNet-50 [23] 作为 PANet 的初始网络,使用单个尺度进行测试,其性能优于 COCO 2016 挑战赛目标检测和实例分割任务冠军。注意:之前的结果均由具备多尺度和水平翻转测试的大型模型获取。

本研究提出的模型在未经大批量训练的情况下,取得了 COCO 2017 挑战赛实例分割任务第一名、目标检测任务的第二名。研究者还在 Cityscapes 和 MVD 上对该系统进行了基准测试,同样获得了顶尖结果,这表明 PANet 是一个非常实际、且性能优秀的框架。之后研究者将公开代码和模型。

图 3. 使用适应性特征池化从不同特征级中整合特征的比率。每一条线表示应被分配至 FPN 中相同特征级的一组建议区域,即具备相似尺度的建议区域。横轴表示池化特征的来源。这表明具备不同大小的建议区域都可以使用不同级别的特征。

图 4. 具备全连接融合层的掩码预测分支。

表 1. PANet、COCO 2016 实例分割挑战赛冠军和 Mask R-CNN 在 COCO 测试-开发子集上的 Mask AP 对比,后两者是基线模型。

表 5. 每一行的图像分别是本研究提出的模型在 COCO 测试-开发集、Cityscapes 测试集和 MVD 测试集上的实例分割结果。

表 8. 在 Cityscapes 验证子集上的结果,标注为 AP [val];在 Cityscapes 测试子集上的结果,标注为 AP。

论文:Path Aggregation Network for Instance Segmentation

论文链接:https://arxiv.org/abs/1803.01534

神经网络中的信息传播方式是非常重要的因素。本论文提出了 Path Aggregation Network(PANet),该网络可以对基于区域建议的实例分割框架中的信息流进行加速。具体来说,我们通过自下而上的路径增强,在较底层用准确的定位信号增强了整个特征分层,从而缩短了较底层和最高层特征之间的信息路径。我们展示了适应性特征池化(adaptive feature pooling)操作,将特征网格和所有特征层级连接起来,以使每个特征层级中的有用信息能直接传播到随后的建议子网络。我们还创建了一个互补的分支网络为每个建议捕捉不同的视野,从而进一步提升生成掩码预测的质量。这些提升都能够很简单地实现,只需要少量的额外计算量。PANet 在 COCO 2017 挑战赛的实例分割任务中取得了第一名,在目标检测任务中取得了第二名,且无需大批量训练。它在 MVD 和 Cityscapes 上也取得了当前最佳的结果。

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-03-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏媒矿工厂

HDR关键技术:色调映射(二)

HDR技术近年来发展迅猛,在未来将会成为图像与视频领域的主流。如何让HDR图像与视频也能够同时兼容地在现有的SDR显示设备上显示,是非常重要的技术挑战。色调映射...

2.7K40
来自专栏AI科技评论

王宇龙:如何通过关键数据通路去理解网络行为?

AI科技评论按:神经网络长久以来的“黑盒”属性,导致人们一直无法理解网络的内部是如何运作的,针对这个困扰已久的问题,学界主要存在三种研究方向:数据归因模式、特征...

6530
来自专栏ATYUN订阅号

自动驾驶中机器学习算法应用大盘点

今天,机器学习算法被广泛应用于解决自动驾驶汽车制造的各种挑战问题中。人类将传感器数据处理集成到汽车的ECU(电子控制单元)中。 提高机器学习的利用率去完成新...

36540
来自专栏量子位

Kaggle优胜者详解:如何用深度学习实现卫星图像分割与识别

王新民 编译 量子位 出品 | 公众号 QbitAI 最近,Kaggle网站举办了一场在卫星图像上进行场景特征检测的比赛,数据集由英国国防科学与技术实验室(DS...

600120
来自专栏CSDN技术头条

使用scikit-learn解释随机森林算法

在以前的一篇博文里,我讨论过如何将随机森林算法转化为一个“白盒”,这样每次预测就能被分解为各项特征的贡献和,即 ? 我多次想找相关的代码。然而,绝大多数的随机森...

208100
来自专栏鸿的学习笔记

写给开发者的机器学习指南(二)

在机器学习领域有两种主要的学习方式,即监督学习和无监督学习。当您想在您的应用程序中使用机器学习时,需要简要说明下,因为选择正确的机器学习方法和算法是一个重要但有...

11320
来自专栏人工智能头条

机器学习的“小无相功”:高斯过程回归的深度科普

20430
来自专栏磐创AI技术团队的专栏

专题 | 特征工程简介 (文末免费送AI币)

16230
来自专栏Fish

Andrew Ng的机器学习课程概述(三)

第十三章 无监督学习 首先讲的K-mean聚类原理还是挺简单的。就是你要分K个类,你就选择K个点做中心点,然后让所有的点进行计算,离哪个点最近,就选择成为这个点...

20080
来自专栏专知

【深度学习】一文教你如何确定好的“学习率”

【导读】近日,数据科学家Hafidz Zulkifli发布一篇文章,主要讲解了深度学习中的“学习率”,以及如何利用学习率来提高深度学习模型的性能并减少训练时间。...

42350

扫码关注云+社区

领取腾讯云代金券