专栏首页机器学习AI算法工程CVPR2018 目标检测算法总览(最新的目标检测论文)

CVPR2018 目标检测算法总览(最新的目标检测论文)

CVPR2018上关于目标检测(object detection)的论文比去年要多很多,而且大部分都有亮点。从其中挑了几篇非常有意思的文章,特来分享,每篇文章都有详细的博客笔记,可以点击链接阅读。

1、Cascaded RCNN 论文:Cascade R-CNN Delving into High Quality Object Detection 论文链接:https://arxiv.org/abs/1712.00726 代码链接:https://github.com/zhaoweicai/cascade-rcnn 详细内容请移步:Cascade RCNN算法笔记

https://blog.csdn.net/u014380165/article/details/80602027

Cascaded RCNN这篇文章的出发点非常有意思,是通过分析输入proposal和ground truth的IOU与检测模型采用的用于界定正负样本的IOU关系得到结论:当一个检测模型采用某个阈值(假设u=0.6)来界定正负样本时,那么当输入proposal的IOU在这个阈值(u=0.6)附近时,该检测模型比基于其他阈值训练的检测模型的效果要好,参看FIgure1(c)。

Cascaded RCNN通过级联几个检测网络达到不断优化预测结果的目的,与普通级联不同的是,cascade R-CNN的几个检测网络是基于不同IOU阈值确定的正负样本上训练得到的,前一个检测模型的输出作为后一个检测模型的输入,因此是stage by stage的训练方式,而且越往后的检测模型,其界定正负样本的IOU阈值是不断上升的。cascade R-CNN的实验大部分是在COCO数据集做的,而且效果非常出彩。

这是在COCO数据集上的结果。

2、Relation Networks for Object Detection 论文:Relation Networks for Object Detection 论文链接:https://arxiv.org/abs/1711.11575 代码链接:https://github.com/msracver/Relation-Networks-for-Object-Detection 详细内容请移步:Relation Networks for Object Detection算法笔记

https://blog.csdn.net/u014380165/article/details/80779432

Relation Networks for Object Detection源码解读(网络结构细节)

https://blog.csdn.net/u014380165/article/details/80779712

这篇文章的出发点在于目前大部分的目标检测(object detection)算法都是独立地检测图像中的object,但显然如果模型能学到object之间的关系显然对于检测效果提升会有帮助,因此这篇文章希望在检测过程中可以通过利用图像中object之间的相互关系或者叫图像内容(context)来优化检测效果,这种关系既包括相对位置关系也包括图像特征关系。

这篇文章提出了object relation module来描述object之间的关系,从而以attention的形式附加到原来的特征上最后进行回归和分类。实验是针对two stage系列的目标检测算法而言,在ROI Pooling后的两个全连接层和NMS模块引入object relation module,如Figure1所示,因此做到了完整的end-to-end训练。

3、RefineDet 论文:Single-Shot Refinement Neural Network for Object Detection 论文链接:https://arxiv.org/abs/1711.06897 代码链接:https://github.com/sfzhang15/RefineDet 详细内容请移步:RefineDet算法笔记、

https://blog.csdn.net/u014380165/article/details/79502308

RefineDet算法源码 (一)训练脚本、

https://blog.csdn.net/u014380165/article/details/80562416

RefineDet算法源码(二)网络结构

https://blog.csdn.net/u014380165/article/details/80562452

个人觉得RefineDet是一篇很不错的文章,该算法大致上是SSD算法和RPN网络、FPN算法的结合,可以在保持SSD高效的前提下提高检测效果(实验效果提升挺明显)。第一眼看到这篇文章就让我想起了RON,毕竟都是想做one stage和two stage的object detection算法结合。

RefineDet的主要思想:一方面引入two stage类型的object detection算法中对box的由粗到细的回归思想(由粗到细回归其实就是先通过RPN网络得到粗粒度的box信息,然后再通过常规的回归支路进行进一步回归从而得到更加精确的框信息,这也是two stage类型的object detection算法效果优于one stage类型的一个重要原因)。另一方面引入类似FPN网络的特征融合操作用于检测网络,可以有效提高对小目标的检测效果,检测网络的框架还是SSD。

网络结构参考Figure1。

4、SNIP 论文:An Analysis of Scale Invariance in Object Detection – SNIP 论文链接:https://arxiv.org/abs/1711.08189 代码链接:http://bit.ly/2yXVg4c 详细内容请移步:SNIP 算法笔记

https://blog.csdn.net/u014380165/article/details/80793334

这篇文章从数据集出发进行了非常详细的分析和实验对比,发现在COCO数据集中小目标占比要比ImageNet数据集大,这样在用ImageNt数据集的预训练模型时就会产生domain-shift问题,另外COCO数据集中的object尺寸变化范围非常大,即便采用multi-scale training的方式也很难训练一个检测器去cover所有scale的目标。

因此,这篇文章针对前面提到的问题,提出一种新的训练模型的方式:Scale Normalization for Image Pyramids (SNIP),该算法主要包含两个改进点:1、为了减少前面所提到的domain-shift,在梯度回传时只将和预训练模型所基于的训练数据尺寸相对应的ROI的梯度进行回传。2、借鉴了multi-scale training的思想,引入图像金字塔来处理数据集中不同尺寸的数据。

SNIP网络结构参考Figure6。

5、R-FCN-3000 论文:R-FCN-3000 at 30fps: Decoupling Detection and Classification 链接:https://arxiv.org/abs/1712.01802 详细内容请移步:R-FCN-3000算法笔记

https://blog.csdn.net/u014380165/article/details/78809002

这篇文章主要是成功将R-FCN算法(关于R-FCN算法的介绍可以看博客)应用在检测类别较多的场景下。首先当初提出R-FCN算法的主要目的在于引入position-sensitive score map解决原来Faster RCNN中ROI的重复计算问题,有效提升速度。但是如果检测的类别数非常多(比如这里的3000类),那么直接用R-FCN算法的话速度是很慢的,瓶颈正是生成分类支路的position-sensitive score map时计算量非常大,因此这篇文章通过解耦分类支路的position-sensitive score map生成的过程(将原来的分类支路拆分成两条支路,而回归支路还是采用R-FCN的回归支路,这篇文章不做修改,这是因为增加检测类别数增加不影响回归支路的计算量),从而在保证速度(30FPS)的情况下将R-FCN的分类类别数延伸至3000类。

Figure2是F-RCN-3000的分类支路过程,该过程包含两条支路(Figure2上面那条是生成objectness score的过程,Figure2下面那条是生成fine-grained classification score的过程),这两条支路的结果的乘积才是最终的分类结果。在Figure2中回归部分并未画出,但是需要注意的是回归部分和R-FCN的回归部分是一样的。

6、DES 论文:Single-Shot Object Detection with Enriched Semantics 论文链接:https://arxiv.org/abs/1712.00433 详细内容请移步:Detection with Enriched Semantics(DES)算法笔记

https://blog.csdn.net/u014380165/article/details/80602240

Detection with Enriched Semantics(DES)主要是基于SSD做改进,也是为了解决SSD中对于小目标物体的检测效果不好的问题,因为SSD算法对小目标的检测只是利用了浅层的特征,并没有用到高层的语义特征。因此这篇文章的出发点就是为了增加用于检测的feature map的语义信息,

主要的措施包括:

1、引入segmentation module用于得到attention mask,从而提高low level的feature map的语义信息。

2、引入global activation module用于提高high level的feature map的语义信息。

实验效果不错,在VOC2007数据集上,DES512能达到81.7的mAP,而且在Titan X上的速度是31.7FPS(batch设置为8,不过比相同大小输入和相同特征提取网络的SSD算法慢一些)。

网络结构参考Figure1。

7、STDN 论文:Scale-Transferrable Object Detection 论文链接:https://pan.baidu.com/s/1i6Yjvpz 详细内容请移步:Scale-Transferrable Detection Network(STDN)算法笔记

https://blog.csdn.net/u014380165/article/details/80602130

Scale-Transferrable Detection Network(STDN)算法主要用于提高object detection算法对不同scale的object的检测效果。该算法采用DenseNet网络作为特征提取网络(自带高低层特征融合),基于多层特征做预测(类似SSD),并对预测结果做融合得到最终结果。

该算法有两个特点:

1、主网络采用DenseNet,了解DenseNet的同学应该知道该网络在一个block中,每一层的输入feature map是前面几层的输出feature map做concate后的结果,因此相当于高低层特征做了融合。高低层特征融合其实对object detection算法而言是比较重要的,FPN算法是显式地做了高低层特征融合,而SSD没有,这也是为什么SSD在小目标问题上检测效果不好的原因之一,因此该算法虽然看似SSD,但其实和SSD有区别。

2、引入scale-transfer layer,实现了在几乎不增加参数量和计算量的前提下生成大尺寸的feature map(其他常见的算法基本上都是采用deconvolution或upsample),由于scale-transfer layer是一个转换操作,因此基本不会引入额外的参数量和计算量。

网络结构参考Figure2。


本文分享自微信公众号 - 机器学习AI算法工程(datayx)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-12-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【机器学习】迭代决策树GBRT

    一、决策树模型组合 单决策树C4.5由于功能太简单,并且非常容易出现过拟合的现象,于是引申出了许多变种决策树,就是将单决策树进行模型组合,形成多决策树...

    机器学习AI算法工程
  • 用R语言爬取美国新总统-川普的twitte进行数据分析

    Twitter是一个流行的社交网络,这里有大量的数据等着我们分析。Twitter R包是对twitter数据进行文本挖掘的好工具。 本文是关于如何使用Twitt...

    机器学习AI算法工程
  • 【机器学习】迭代决策树GBRT

    一、决策树模型组合 单决策树C4.5由于功能太简单,并且非常容易出现过拟合的现象,于是引申出了许多变种决策树,就是将单决策树进行模型组合,形成多决策...

    机器学习AI算法工程
  • CVPR2018 目标检测算法总览(最新的目标检测论文)

    CVPR2018上关于目标检测(object detection)的论文比去年要多很多,而且大部分都有亮点。从其中挑了几篇非常有意思的文章,特来分享,每篇文章都...

    朱晓霞
  • RDD分区理解

    一个HDFS文件的RDD将文件的每个文件块表示为一个分区,并且知道每个文件块的位置信息。这些对应着数据块的分区分布到集群的节点中,因此,分区的多少涉及对这个RD...

    张凝可
  • 发布一个轻量级的滑块控件

    比系统自带的组件体积要小很多,而且支持进度条显示(在做播放器时,显示缓冲进度很有用哦),另外也支持三角形的音量调整显示 使用示例: package { imp...

    菩提树下的杨过
  • GitHub 热门:各大网站的 Python 爬虫登录汇总

    项目地址:https://github.com/CriseLYJ/awesome-python-login-model

    IT派
  • 用 Python 登录主流网站,我们的数据爬取少不了它

    项目地址:https://github.com/CriseLYJ/awesome-python-login-model

    机器之心
  • 谈谈一些有趣的CSS题目(四)-- 从倒影说起,谈谈 CSS 继承 inherit

    Sb_Coco
  • 单个半导体器件也能计算XOR,组合后还可分类图像,荷兰华人学者最新研究登上Nature

    生物学家们发现,人类的单个神经元也可以进行异或(XOR)运算,效率远高于我们现在的人工神经网络(ANN)。

    量子位

扫码关注云+社区

领取腾讯云代金券