从CVPR2017 看多样目标检测

1、导读

When you have trouble with object detection, keep calm and use deep learning.

这句话是作者自己抖机灵的话,如果说 deep learning 已经攻陷计算机视觉这个领域的话,Object Detection可以说是受灾最严重的区域了。不管是基于region proposal的RCNN系列,还是 end-to-end 的YOLO系列,基于深度学习的方法已经完胜手工特征方法。

Object Detection 这块众多博士科研工作者和大批公司关注的“硬骨头” 是否已经黔驴技穷,无从下手? 当然不是,而且,从近几年的趋势来看,如果你想“一文惊人”,抑或得到Best Paper Award,Object Detection是最佳方向(从RestNet 到 DenseNet 再到前几天ICCV kaimingHe双best paper)。

同时,近两年一个更明显的特点,最吸引人的Object Detection方法都是:

Simple Clean But Effective

这些方法都是基于网络结构很简单的思想,基本结构都是:

  • Skip Connection (RestNet, DenseNet)
  • Joint Multi Feature Map (R-FCN, FPN)

关于目标检测的发展(传统方法-RCNN系列-YOLO系列)以及目标检测的一些经常使用的术语(IOU, NMS, BBOX回归, MAP)可以见我另一篇博客(https://www.jianshu.com/p/e6496a764b51)。

2、从CVPR2016看Object Detection发展

a、检测精度(“又准”)

检测精度是目标检测任务最初始也是最重要的指标,如何提高方法检测精度指标MAP,是各种方法比较的最基本的指标。这也是深度方法完胜手工方法的地方。

CVPR2016代表性工作有:ResNet, ION, HyperNet.

b、检测效率(“又快”)

网络的时间开销,如何提高检测速度,实现又快又好地检测。

YOLO:这个工作在识别效率方面优势十分明显。

c、定位精度(“又好”)

如何产生更准确的Boundbox?如何逐步提高评价参数IOU(voc数据集,这个值为0.5)?

代表工作LocNet: 抛弃Boundbox回归,使用概率模型。

总结:总最初始最基本的检测指标 检测精度MAP,到如何减少时间开销,再到一个更准确的bbox。侧面反映了目标检测的不断发展: 又准(检测精度)又快(检测效率)又好(定位精度)

3、从CVPR2017看多样的目标检测

从CVPR2017 论文list看,新的目标检测论文已经不再拘泥于ImageNet,VOC,CoCo数据集了,也不再拘泥于前面的检测精度,检测效率,以及定位精度了(当然这方面也有很多文章)。大家的目光开始转向一个特定环境特点条件下特定目标的检测(最大的特点是有很多这些特点目标的数据集文章出现)。目标检测呈现出百花齐放的景象。

1、object action detection

Action Detection

特定行为特定动作的检测,“一个人在刷牙”不是检测出“人”和“牙刷”,而是“刷牙“这个动作。

CVPR2017相关文章:

  • Temporal Convolutional Networks for Action Segmentation and Detection ;
  • Predictive-Corrective Networks for Action Detection;
  • SCC: Semantic Context Cascade for Efficient Action Detection ;
  • UntrimmedNets for Weakly Supervised Action Recognition and Detection

2、video object detection

Video Object Detection

基于视频的目标检测,传统目标检测都是基于静态图片的,基于视频的目标检测有很多不同点,大部分都是和跟踪算法想结合的。

CVPR2017相关文章:

  • Object Detection in Videos With Tubelet Proposal Networks ;
  • YouTube-BoundingBoxes: A Large High-Precision Data Set for Object Detection in Video;
  • Spatio-Temporal Self-Organizing Map Deep Network for Dynamic Object Detection From Videos;

3、3D object detection

3D Object Detection

自然环境下的目标检测如何转换到3D空间下。

CVPR2017相关文章:

  • Visual-Inertial-Semantic Scene Representation for 3D Object Detection;
  • Multi-View 3D Object Detection Network for Autonomous Driving;
  • Amodal Detection of 3D Objects: Inferring 3D Bounding Boxes From 2D Ones in RGB-Depth Images

4、text detection

TEXT Detection

图像里文字的检测和识别。

CVPR2017相关文章:

  • Deep Matching Prior Network: Toward Tighter Multi-Oriented Text Detection;
  • End-To-End Concept Word Detection for Video Captioning, Retrieval, and Question Answering

5、rail detection

Rain Detection

检测出图像中的雨,并且去除得到去雨的照片。(记得之前有一篇去雾的)

CVPR2017相关文章:

  • Deep Joint Rain Detection and Removal From a Single Image

6、line detection

Line Detection

图片里边缘线段的检测。

CVPR2017相关文章:

  • MCMLSD: A Dynamic Programming Approach to Line Segment Detection

7、pedestrain detection

Pedestrian Detection

行人检测一直是一个重要的topic,当然也少不了。

CVPR2017相关文章:

  • What Can Help Pedestrian Detection?;
  • CityPersons: A Diverse Dataset for Pedestrian Detection;
  • Learning Cross-Modal Deep Representations for Robust Pedestrian Detection

8、moving object detection

Moving Object Detection

移动物体检测不同于基于视频的目标检测,移动物体一般都是移动速度很快的物体(汽车,摩托,飞机,动物等等)。

CVPR2017相关文章:

  • Minimum Delay Moving Object Detection

9、facial landmark detection

Facial Landmark Detection

人脸关键点检测也是一个一直很火热的话题。

CVPR2017相关文章:

  • A Deep Regression Architecture With Two-Stage Re-Initialization for High Performance Facial Landmark Detection;
  • Simultaneous Facial Landmark Detection, Pose and Deformation Estimation Under Facial Occlusion;
  • Interspecies Knowledge Transfer for Facial Keypoint Detection

10、small object detection

Small Object Detection

小目标检测一直是目标检测任务的一个难点,这一篇是小交通标志检测。

  • Perceptual Generative Adversarial Networks for Small Object Detection

feature pyramid networks for object detection 阅读

1、introduction

小目标检测和尺度变化比较大的目标检测一直是目标检测任务的一大难点。

特征金字塔一直是传统方法应对这一难点最常用的方法。

但是对于深度学习:费时费力。

如何设计适合深度学习的特征金字塔?

2、some DL feature pyramid

(a) 用图片金字塔生成特征金字塔 (b) 只在特征最上层预测 (c) 特征层分层预测 (d) FPN从高层携带信息传给底层,再分层预测

各自特点:

(a).运算耗时会增加4倍,训练深度网络的时候太吃显存; (b).前后层之间由于不同深度(depths)影响,语义信息差距太大; (c).SSD就是这样的形式,但是对于高分辨率的底层特征没有再利用,而这些层对于检测小目标很重要; (d).把低分辨率、高语义信息的高层特征和高分辨率、低语义信息的低层特征进行自上而下的侧边连接,使得所有尺度下的特征都有丰富的语义信息.

3、bottom-up pathway

  • 自底向上的过程就是神经网络普通的正向传播;
  • 特征图经过卷积核计算,通常是越变越小的;
  • same network stage:feature map大小相同的地方,只抽取最上层;
  • 逐层抽取特征;
  • ResNets的卷积层,分为了{C1_x,C2_x,C3_x,C4_x,C5_x}用了 C2,C3,C4,C5 最后的 feature map;

4、top-down pathway and lateral connections

迭代最开始时:C5 + 1 * 1的卷积核-->最粗略的特征图(P5)

高层特征做2倍上采样-->与下一层同样大小的 featuremap

低层特征+1*1卷积,改变channel数-->与前一层相同channel特征图

上下相同channel 相同大小的特征图,像素间加法-->融合后的特征图 (C4->C4’)

3 * 3的卷积核处理已经融合的特征图-->消除混叠效应(C4'->P4)

不断迭代,前面抽取的C2,C3,C4,C5,各自对应融合的特征图{P2, P3, P4, P5}

5、why does FPN improves Features for small objects?

FPN leverages contextual information passed top-down for small objects.

FPN increases feature resolution for small objects.

对于小物体,一方面我们需要高分辨率的 feature map 更多关注小区域信息,另一方面,如图中的足球一样,需要更全局的信息更准确判断足球的存在及位置。(这是作者在poster上的解释,poster那张图太模糊了,就借用习大大的照片了)

原文发布于微信公众号 - 人工智能LeadAI(atleadai)

原文发表时间:2018-01-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)概念区分理解

1、相关知识 从广义上来说,NN(或是更美的DNN)确实可以认为包含了CNN、RNN这些具体的变种形式。有很多人认为,它们并没有可比性,或是根本没必要放在一起比...

4188
来自专栏数据派THU

一文概览图卷积网络基本结构和最新进展(附视频、代码)

来源:机器之心 本文长度为3476字,建议阅读7分钟 本文为你介绍图卷积网络的基本结构和最新的研究进展,并用一个简单的一阶 GCN 模型进行图嵌入。 本文介绍了...

5537
来自专栏AI科技评论

FAIR最新视觉论文集锦:FPN,RetinaNet,Mask和Mask-X RCNN(含代码实现)

这篇文章会从 FAIR 在基本模块上的创新开始,谈到 CNN,再到 one-shot 物体检测。之后会讲实例分割的创新。最后聊聊依靠弱半监督模型来扩展实例分割。...

8098
来自专栏专知

【最新前沿】Facebook何恺明等大神最新论文提出非局部神经网络(Non-local Neural Networks)

【导读】Facebook何恺明和RGB两位大神最近提出非局部操作non-local operations为解决视频处理中时空域的长距离依赖打开了新的方向。文章采...

4274
来自专栏人工智能头条

漫谈词向量之基于Softmax与Sampling的方法

5085
来自专栏新智元

谷歌新 AI 实验室主管 Hugo 深度学习教程:神经网络、CV、NLP 难点解析

【新智元导读】 11月22日,谷歌在蒙特利尔的现有办公室开设了一个全新的深度学习和人工智能研究小组。新团队将作为位于山景城的 Google Brain 团队的远...

3515
来自专栏智能算法

基于SURF算法相似图像相对位置的寻找

例如以下两个相似证件的模板,若以其中一幅图像为模板,并给出相应的位置,可以给出其他相似图像进行定位相对应的位置,如下图所示,其中除了标题和样式一样,内容确是不同...

3667
来自专栏机器学习之旅

理论:SVM理论解析及python实现

关于常见的分类算法在不同数据集上的分类效果,在《Do we Need Hundreds of Classifiers to Solve Real World C...

1003
来自专栏数据派THU

独家 | 一文为你解析神经网络(附实例、公式)

原文标题:Introduction To Neural Networks 作者:Ben Gorman 翻译:申利彬 校对:和中华 本文长度为4000字,建议阅读...

2225
来自专栏PPV课数据科学社区

【V课堂】机器学习系列:(二)线性回归

线性回归 本章介绍用线性模型处理回归问题。从简单问题开始,先处理一个响应变量和一个解释变量的一元问题。然后,我们介绍多元线性回归问题(multiple line...

36011

扫码关注云+社区