专栏首页机器之心专栏 | 后RCNN时代的物体检测及实例分割进展

专栏 | 后RCNN时代的物体检测及实例分割进展

机器之心专栏

作者:huichan chen

物体检测是计算机视觉的重要任务之一,从最开始的 Viola-Jones 2001 的人脸检测开始,到 Ross 的 Deformable Part Model(DPM)2007 通用物体检测,再到现在基于深度学习的 Region Convolution(RCNN)2013 模型,我们见证了物体检测的准确率快速的提升,并且计算机视觉所使用的数学方法也从 Boosting,变成了 SVM,到最近的 Deep Neural Network。基于物体检测,研究者们成功的设计出了实例分割 Mask RCNN。RCNN 是近年来物体检测的基石,有大量的论文和博客在分析和改进 RCNN,本篇文章希望通过介绍除了 RCNN,YOLO,SSD 和 Mask RCNN 之外的 novel idea 来帮助大家开拓眼界,避免思维陷入单一模式。

基础网络的改进方向

说起神经网络,大家就会想起用 ResNet,VGG 或者 Inception 来作为主干。来自韩国 Intel 公司的组发明的 PVANet 和 MSRA 的代季峰组的 Deformable Convolution 成功的跳出了惯性思维,大大提升了检测网络的速度和准确性。

PVANet : Deep but Lightweight Neural Networks for Real-time Object Detection

PVANet 贡献了一个可以适用于 Fully Convolution Network 的网络结构,该网络的浅层使用了 CRelu 可以将 Channel 减半,在深层使用 Inception 加强网络的学习效果。CRelu 和完整网络结构如下:

网络参数能够减半的原因是因为,CRelu 发现浅层的网络冗余度高,并且存在反相现象,通过 CRelu 可以重建出另一半的通道。PVANet 跟 Faster RCNN 的速度对比如下表:

Deformable Convolution Networks (ICCV 2017 oral)

本篇文章在 Spatial Transform Network 的基础上提出了 Deformable Convolution Network。个人感觉这篇论文是很有可能的 ICCV Best Paper 的论文之一。这篇论文和 Dilation Network 也有一定的关系。并且这篇论文提供了完整,清晰的代码,为之后的研究提供了很好的平台。

如上图(a)是传统的 CNN,采样是在 3 by 3 的 regular grid 进行采样。(b)为作者提出的 Deformable Convolution,可以看出采样点在 regular grid 的基础上面加上了 offset,能够让神经网络自己决定采样点的位置。(c)和(d)为一种特殊的采样方法,为 Deformable CNN 在某种位移情况下的表现形式。

网络的训练是基于 spatial transformer Network,通过 Bilinear interpolation 的方式进行学习,Backpropagation 也是可以微分的。Deformable CNN 的结构如下图:

作者在 Semantic segmentation 和物体检测任务上面测试了方法,without bells and whistles,作者可以达到 state-of-the-art 的结果(仅仅物体检测)。如果我们将采样点显示出来就会发现奇妙的现象。采样点会有选择性的位移到 foreground。

Deformable Part-based Model Fully Convolutional Networks for Object Detection (BMVC 2017 oral)

这篇论文和 Deformable CNN 是同期的论文,两者的出发点基本一样。但是训练的过程中,作者使用的 DPM 论文中的公式对物体的位移进行了限制,论文的流程图如下:

物体检测框架的改进

由于 NMS(Non Maximum Suppression)的存在,使得 RCNN 框架的物体检测不是完全的 end-to-end 模型,代季峰组的 Relation Network module 能够代替 NMS,实现 100% 的 end-to-end 模型。

Soft-NMS, improving object detection with One Line of Code (ICCV 2017)

NMS 能除去重叠的 bounding box,是物体检测系统中不可或缺的部分。但是作者发现 NMS 也会滤掉靠的很近的物体。比如下图两匹靠得近的马左边的马由于跟右边的马有很大的 overlapping,从而造成误检。为了避免这种现象的产生,soft-NMS 将 overlapping 的 bounding box 的 confidence 降低而非直接变成零。如下图左边的马的 confidence 从 0.80 降低到了 0.4,从而使得改 bounding box 能够被检测到。soft-NMS 能够在所有的公开数据上面得到 1 个点左右的提升,并且结合 deformable CNN 得到了 state-of-the-art 的结果。

Relation Network for Object Detection (CVPR 2018 submitted)

这篇论文提出了对 relation 进行建模的的 relation module,可以代替 NMS

,实现 100% 的 end-to-end 物体检测。对关系的描述可以提高计算机视觉模型的效果是大家的共识,但是本篇论文是少有的成功运用关系的论文。Relation module 的结果会高于 soft-NMS。在可以预见的将来,relation module 会大量地运用于 CV 模型中。但是美中不足的是,relation network 到底捕捉到了什么样的关系是论文无法说明的。Relation Network 的模型跟最近提出的 non local convolution,attention is all you need 有着惊人的相似。相信如果从这个角度出发,应该会有很大的收获。Relation Module 的结构如下:

Relation Module 跟 NMS 和 Soft-NMS 之间的结果对比。

实例分割的改进

在实例分割方面,除了 Mask RCNN 之外存在着很多新颖的方法,但是由于结果没有 Mask RCNN 好,经常会被人忽律,但是其中的 idea 还是很值得学习借鉴的。

Mask RCNN 已经成为了 instance segmentation 的 baseline 模型,这里就不多做介绍,结构如下:

Deep Watershed Transform for Instance Segmentation (CVPR 2017)

这篇 instance segmentation 的论文在 mask rcnn 之前,这篇论文提出了学习一种类似于 watershed transform 的能量。Watershed transform 可以直接计算,但是由于自然图像的复杂使得结果有很多 local minimal,通过 deep learning 学习到的势能会更加稳定,如下图:

网络通过 GT angle 和 watershed energy 两种 supervision 训练得到。两种能量可以通过 mask 标注产生,Ground-truth 如下图:

MaskLab : Instance Segmentation by Refining Object Detection with Semantic and Direction Features (CVPR 2018 submitted)

MaskLab 的作者是来自 Google 的团队,第一作者同时也是 deeplab 的作者。应该算是 segmentation 的元老级人物。这篇论文跟 mask rcnn 类似,但是使用了 semantic segmentation 和 Direction prediction 两个分支的信息来生成 mask,结果会比 feature pyramid network 的 mask rcnn 好很多。这篇论文的创新性来自 Direction Pooling,通过每个区域的 direction 的 voting 来得到 region mask,idea 跟 deformable CNN 中的 deformable region pooling 类似。

MaskLab 框架如下:

Directional Pooling 结构如下:

Panoptic Segmentation (CVPR 2018 submitted)

Panoptic Segmentation 中文名为全景分割,是由 Facebook 的大神联手推出的结合 instance segmentation 和 semantic segmentation 的新任务。作者发现,instance segmentation 只能够分别物体,但是没有办法对 stuff 进行预测。而传统的 semantic segmentation 不能够区分物体。作者提出了同时对物体进行分割,并且对 stuff 进行分类的新任务。

(a)为原图,(b)为 semantic segmentation 图,(c)为 instance segmentation,(d)为新提出的全景分割。与此同时作者提出了全景分割的 evaluation metric 和基于 mask rcnn + PSPNet 的 baseline 模型。新提出的任务应该还是有很大前进空间,相信各路大神应该会很快就攻占这一任务了吧 (>_<)

Instance Segmentation Benchmark

下面我们比较一下不同方法在 cityscape 上面的结果,可以看出 Mask RCNN 结果远超过其他方法,最新提出的 MaskLab 借助大数据的力量微弱超过 mask rcnn。

Cityscape 上面 Watershed,SGN 和 Mask RCNN 的比较

COCO 数据集 Mask RCNN 跟 MaskLab 比较

本文为机器之心专栏,转载请联系本公众号获得授权。

本文分享自微信公众号 - 机器之心(almosthuman2014),作者:huichan chen

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-01-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • ICLR 2020 | Bengio 一作论文:因果机制、元学习与模型泛化如何产生关联?

    Yoshua Bengio 等人基于学习器适应新分布的速度提出一种元学习因果结构,这些新分布由干预、智能体动作以及其它非稳态(non-stationarity)...

    机器之心
  • 学界 | 牛津大学ICCV 2017 Workshop论文:利用GAN的单视角图片3D建模技术

    选自arXiv 机器之心编译 参与:李泽南 对于现实世界物体的 3D 建模是很多工作中都会出现的任务。目前流行的方法通常需要对于目标物体进行多角度测量,这种方法...

    机器之心
  • 仅用200个样本就能得到当前最佳结果:手写字符识别新模型TextCaps

    由于深度学习模型近期取得的进展,对于许多主流语言来说,手写字符识别已经是得到解决的问题了。但对于其它语言而言,由于缺乏足够大的、用来训练深度学习模型的标注数据集...

    机器之心
  • SlideShare案例研究:使用Fluentd呈现统一数据

    SlideShare于2006年10月成立,旨在促进在线知识共享,已发展成为世界上最大的共享演示文稿和其他内容的社区。在2013年第四季度,SlideShare...

    CNCF
  • 如何避免数据中心冷却水缺水?

    导语 冷却水在制冷系统中起到十分重要的作用,是冷量传递的媒介。冷却水系统如果发生缺水现象,会产生严重的后果,轻则导致空调送风温度升高,重则导致冷机停机,甚至导...

    腾讯数据中心
  • Jmeter系列(59)- 详解 while 控制器

    和 java 里面的 while 循环一样,将一直运行其所有子项,直到条件为 false 为止

    小菠萝测试笔记
  • 【学术】从一个简单的模型开始,可以让机器学习更高效

    AiTechYun 编辑:xiaoshan ? 要创建通用人工智能,必须首先掌握逻辑回归 从基础开始 在试图发展对世界的科学认识的时候,大多数的领域在探索重要的...

    AiTechYun
  • 时间序列和白噪声

    1.什么是白噪声?  答:白噪声是指功率谱密度在整个频域内均匀分布的噪声。白噪声或白杂讯,是一种功率频谱密度为常数的随机信号或随机过程。换句话说,此信号在各个频...

    AIHGF
  • 快播王欣:我所失去的一切,都要靠区块链双倍奉还!

    2014年4月22日,中国互联网 20 周年纪念日后的第二天,大批警察突然进入快播深圳总部,查封所有电脑,控制核心员工!

    IT派
  • 数据库大批量 SQL 插入性能优化

    修改后的插入操作能够提高程序的插入效率。这里第二种 SQL 执行效率高的主要原因是合并后日志量(MySQL 的binlog 和 innodb 的事务让日志)减少...

    周三不加班

扫码关注云+社区

领取腾讯云代金券