从CVPR2017 看多样目标检测

1、导读

When you have trouble with object detection, keep calm and use deep learning.

这句话是作者自己抖机灵的话,如果说 deep learning 已经攻陷计算机视觉这个领域的话,Object Detection可以说是受灾最严重的区域了。不管是基于region proposal的RCNN系列,还是 end-to-end 的YOLO系列,基于深度学习的方法已经完胜手工特征方法。

Object Detection 这块众多博士科研工作者和大批公司关注的“硬骨头” 是否已经黔驴技穷,无从下手? 当然不是,而且,从近几年的趋势来看,如果你想“一文惊人”,抑或得到Best Paper Award,Object Detection是最佳方向(从RestNet 到 DenseNet 再到前几天ICCV kaimingHe双best paper)。

同时,近两年一个更明显的特点,最吸引人的Object Detection方法都是:

Simple Clean But Effective

这些方法都是基于网络结构很简单的思想,基本结构都是:

  • Skip Connection (RestNet, DenseNet)
  • Joint Multi Feature Map (R-FCN, FPN)

关于目标检测的发展(传统方法-RCNN系列-YOLO系列)以及目标检测的一些经常使用的术语(IOU, NMS, BBOX回归, MAP)可以见我另一篇博客(https://www.jianshu.com/p/e6496a764b51)。

2、从CVPR2016看Object Detection发展

a、检测精度(“又准”)

检测精度是目标检测任务最初始也是最重要的指标,如何提高方法检测精度指标MAP,是各种方法比较的最基本的指标。这也是深度方法完胜手工方法的地方。

CVPR2016代表性工作有:ResNet, ION, HyperNet.

b、检测效率(“又快”)

网络的时间开销,如何提高检测速度,实现又快又好地检测。

YOLO:这个工作在识别效率方面优势十分明显。

c、定位精度(“又好”)

如何产生更准确的Boundbox?如何逐步提高评价参数IOU(voc数据集,这个值为0.5)?

代表工作LocNet: 抛弃Boundbox回归,使用概率模型。

总结:总最初始最基本的检测指标 检测精度MAP,到如何减少时间开销,再到一个更准确的bbox。侧面反映了目标检测的不断发展: 又准(检测精度)又快(检测效率)又好(定位精度)

3、从CVPR2017看多样的目标检测

从CVPR2017 论文list看,新的目标检测论文已经不再拘泥于ImageNet,VOC,CoCo数据集了,也不再拘泥于前面的检测精度,检测效率,以及定位精度了(当然这方面也有很多文章)。大家的目光开始转向一个特定环境特点条件下特定目标的检测(最大的特点是有很多这些特点目标的数据集文章出现)。目标检测呈现出百花齐放的景象。

1、object action detection

Action Detection

特定行为特定动作的检测,“一个人在刷牙”不是检测出“人”和“牙刷”,而是“刷牙“这个动作。

CVPR2017相关文章:

  • Temporal Convolutional Networks for Action Segmentation and Detection ;
  • Predictive-Corrective Networks for Action Detection;
  • SCC: Semantic Context Cascade for Efficient Action Detection ;
  • UntrimmedNets for Weakly Supervised Action Recognition and Detection

2、video object detection

Video Object Detection

基于视频的目标检测,传统目标检测都是基于静态图片的,基于视频的目标检测有很多不同点,大部分都是和跟踪算法想结合的。

CVPR2017相关文章:

  • Object Detection in Videos With Tubelet Proposal Networks ;
  • YouTube-BoundingBoxes: A Large High-Precision Data Set for Object Detection in Video;
  • Spatio-Temporal Self-Organizing Map Deep Network for Dynamic Object Detection From Videos;

3、3D object detection

3D Object Detection

自然环境下的目标检测如何转换到3D空间下。

CVPR2017相关文章:

  • Visual-Inertial-Semantic Scene Representation for 3D Object Detection;
  • Multi-View 3D Object Detection Network for Autonomous Driving;
  • Amodal Detection of 3D Objects: Inferring 3D Bounding Boxes From 2D Ones in RGB-Depth Images

4、text detection

TEXT Detection

图像里文字的检测和识别。

CVPR2017相关文章:

  • Deep Matching Prior Network: Toward Tighter Multi-Oriented Text Detection;
  • End-To-End Concept Word Detection for Video Captioning, Retrieval, and Question Answering

5、rail detection

Rain Detection

检测出图像中的雨,并且去除得到去雨的照片。(记得之前有一篇去雾的)

CVPR2017相关文章:

  • Deep Joint Rain Detection and Removal From a Single Image

6、line detection

Line Detection

图片里边缘线段的检测。

CVPR2017相关文章:

  • MCMLSD: A Dynamic Programming Approach to Line Segment Detection

7、pedestrain detection

Pedestrian Detection

行人检测一直是一个重要的topic,当然也少不了。

CVPR2017相关文章:

  • What Can Help Pedestrian Detection?;
  • CityPersons: A Diverse Dataset for Pedestrian Detection;
  • Learning Cross-Modal Deep Representations for Robust Pedestrian Detection

8、moving object detection

Moving Object Detection

移动物体检测不同于基于视频的目标检测,移动物体一般都是移动速度很快的物体(汽车,摩托,飞机,动物等等)。

CVPR2017相关文章:

  • Minimum Delay Moving Object Detection

9、facial landmark detection

Facial Landmark Detection

人脸关键点检测也是一个一直很火热的话题。

CVPR2017相关文章:

  • A Deep Regression Architecture With Two-Stage Re-Initialization for High Performance Facial Landmark Detection;
  • Simultaneous Facial Landmark Detection, Pose and Deformation Estimation Under Facial Occlusion;
  • Interspecies Knowledge Transfer for Facial Keypoint Detection

10、small object detection

Small Object Detection

小目标检测一直是目标检测任务的一个难点,这一篇是小交通标志检测。

  • Perceptual Generative Adversarial Networks for Small Object Detection

feature pyramid networks for object detection 阅读

1、introduction

小目标检测和尺度变化比较大的目标检测一直是目标检测任务的一大难点。

特征金字塔一直是传统方法应对这一难点最常用的方法。

但是对于深度学习:费时费力。

如何设计适合深度学习的特征金字塔?

2、some DL feature pyramid

(a) 用图片金字塔生成特征金字塔 (b) 只在特征最上层预测 (c) 特征层分层预测 (d) FPN从高层携带信息传给底层,再分层预测

各自特点:

(a).运算耗时会增加4倍,训练深度网络的时候太吃显存; (b).前后层之间由于不同深度(depths)影响,语义信息差距太大; (c).SSD就是这样的形式,但是对于高分辨率的底层特征没有再利用,而这些层对于检测小目标很重要; (d).把低分辨率、高语义信息的高层特征和高分辨率、低语义信息的低层特征进行自上而下的侧边连接,使得所有尺度下的特征都有丰富的语义信息.

3、bottom-up pathway

  • 自底向上的过程就是神经网络普通的正向传播;
  • 特征图经过卷积核计算,通常是越变越小的;
  • same network stage:feature map大小相同的地方,只抽取最上层;
  • 逐层抽取特征;
  • ResNets的卷积层,分为了{C1_x,C2_x,C3_x,C4_x,C5_x}用了 C2,C3,C4,C5 最后的 feature map;

4、top-down pathway and lateral connections

迭代最开始时:C5 + 1 * 1的卷积核-->最粗略的特征图(P5)

高层特征做2倍上采样-->与下一层同样大小的 featuremap

低层特征+1*1卷积,改变channel数-->与前一层相同channel特征图

上下相同channel 相同大小的特征图,像素间加法-->融合后的特征图 (C4->C4’)

3 * 3的卷积核处理已经融合的特征图-->消除混叠效应(C4'->P4)

不断迭代,前面抽取的C2,C3,C4,C5,各自对应融合的特征图{P2, P3, P4, P5}

5、why does FPN improves Features for small objects?

FPN leverages contextual information passed top-down for small objects.

FPN increases feature resolution for small objects.

对于小物体,一方面我们需要高分辨率的 feature map 更多关注小区域信息,另一方面,如图中的足球一样,需要更全局的信息更准确判断足球的存在及位置。(这是作者在poster上的解释,poster那张图太模糊了,就借用习大大的照片了)

原文发布于微信公众号 - 人工智能LeadAI(atleadai)

原文发表时间:2018-01-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏老秦求学

调参必备---GridSearch网格搜索

什么是Grid Search 网格搜索? Grid Search:一种调参手段;穷举搜索:在所有候选的参数选择中,通过循环遍历,尝试每一种可能性,表现最好的参数...

5167
来自专栏机器之心

教程 | 如何判断LSTM模型中的过拟合与欠拟合

选自MachineLearningMastery 作者:Jason Brownlee 机器之心编译 参与:Nurhachu Null、路雪 判断长短期记忆模型在...

59910
来自专栏CVer

[计算机视觉论文速递] 2018-03-09

通知:这篇推文有19篇论文速递信息,涉及图像分类、目标检测、目标分割、超分辨率SR、姿态估计、行人重识别Re-ID等方向 [1]《A Deep Learning...

29510
来自专栏AI科技评论

【干货】雾霾太重?深度神经网络教你如何图像去雾

编者按:本文作者蔡博仑,华南理工大学在读博士研究生。主要研究方向,机器学习,计算机视觉,图像处理等。 导读 北京城被中度污染天气包围,到处都是灰蒙蒙一片——雾霾...

3868
来自专栏小小挖掘机

用Deep Recurrent Q Network解决部分观测问题!

好了,回到正题!我们都知道,深度Q网络(Deep-Q-Network)最初是应用在让机器人打游戏,状态的输入常常是前几个画面的截图,但是有时候仅仅靠前面画面的图...

1014
来自专栏机器学习、深度学习

目标检测--Light-Head R-CNN: In Defense of Two-Stage Object Detector

Light-Head R-CNN: In Defense of Two-Stage Object Detector Code will be make pu...

3729
来自专栏AI科技评论

CVPR 2018 中国论文分享会 之「人类、人脸及3D形状」

本文为2018 年 5 月 11 日在微软亚洲研究院进行的 CVPR 2018 中国论文宣讲研讨会中最后一个Session ——「Human, Face and...

1012
来自专栏机器之心

如何用深度学习做自然语言处理?这里有份最佳实践清单

选自ruder.io 机器之心编译 参与:机器之心编辑部 对于如何使用深度学习进行自然语言处理,本文作者 Sebastian Ruder 给出了一份详细的最佳实...

2849
来自专栏CVer

[计算机视觉论文速递] 2018-04-19

[1]《Hierarchical Novelty Detection for Visual Object Recognition》

592
来自专栏AI科技评论

干货 | 元旦,一起NLP!(下)

0.Roadmap 1. 模型 | 语言模型与词嵌入 2. 模型 | LSTM 3. 盘点 | 那些顶级会议 4. 模型 | Seq2Seq 和 Attenti...

3375

扫描关注云+社区