从CVPR2017 看多样目标检测

1、导读

When you have trouble with object detection, keep calm and use deep learning.

这句话是作者自己抖机灵的话,如果说 deep learning 已经攻陷计算机视觉这个领域的话,Object Detection可以说是受灾最严重的区域了。不管是基于region proposal的RCNN系列,还是 end-to-end 的YOLO系列,基于深度学习的方法已经完胜手工特征方法。

Object Detection 这块众多博士科研工作者和大批公司关注的“硬骨头” 是否已经黔驴技穷,无从下手? 当然不是,而且,从近几年的趋势来看,如果你想“一文惊人”,抑或得到Best Paper Award,Object Detection是最佳方向(从RestNet 到 DenseNet 再到前几天ICCV kaimingHe双best paper)。

同时,近两年一个更明显的特点,最吸引人的Object Detection方法都是:

Simple Clean But Effective

这些方法都是基于网络结构很简单的思想,基本结构都是:

  • Skip Connection (RestNet, DenseNet)
  • Joint Multi Feature Map (R-FCN, FPN)

关于目标检测的发展(传统方法-RCNN系列-YOLO系列)以及目标检测的一些经常使用的术语(IOU, NMS, BBOX回归, MAP)可以见我另一篇博客(https://www.jianshu.com/p/e6496a764b51)。

2、从CVPR2016看Object Detection发展

a、检测精度(“又准”)

检测精度是目标检测任务最初始也是最重要的指标,如何提高方法检测精度指标MAP,是各种方法比较的最基本的指标。这也是深度方法完胜手工方法的地方。

CVPR2016代表性工作有:ResNet, ION, HyperNet.

b、检测效率(“又快”)

网络的时间开销,如何提高检测速度,实现又快又好地检测。

YOLO:这个工作在识别效率方面优势十分明显。

c、定位精度(“又好”)

如何产生更准确的Boundbox?如何逐步提高评价参数IOU(voc数据集,这个值为0.5)?

代表工作LocNet: 抛弃Boundbox回归,使用概率模型。

总结:总最初始最基本的检测指标 检测精度MAP,到如何减少时间开销,再到一个更准确的bbox。侧面反映了目标检测的不断发展: 又准(检测精度)又快(检测效率)又好(定位精度)

3、从CVPR2017看多样的目标检测

从CVPR2017 论文list看,新的目标检测论文已经不再拘泥于ImageNet,VOC,CoCo数据集了,也不再拘泥于前面的检测精度,检测效率,以及定位精度了(当然这方面也有很多文章)。大家的目光开始转向一个特定环境特点条件下特定目标的检测(最大的特点是有很多这些特点目标的数据集文章出现)。目标检测呈现出百花齐放的景象。

1、object action detection

Action Detection

特定行为特定动作的检测,“一个人在刷牙”不是检测出“人”和“牙刷”,而是“刷牙“这个动作。

CVPR2017相关文章:

  • Temporal Convolutional Networks for Action Segmentation and Detection ;
  • Predictive-Corrective Networks for Action Detection;
  • SCC: Semantic Context Cascade for Efficient Action Detection ;
  • UntrimmedNets for Weakly Supervised Action Recognition and Detection

2、video object detection

Video Object Detection

基于视频的目标检测,传统目标检测都是基于静态图片的,基于视频的目标检测有很多不同点,大部分都是和跟踪算法想结合的。

CVPR2017相关文章:

  • Object Detection in Videos With Tubelet Proposal Networks ;
  • YouTube-BoundingBoxes: A Large High-Precision Data Set for Object Detection in Video;
  • Spatio-Temporal Self-Organizing Map Deep Network for Dynamic Object Detection From Videos;

3、3D object detection

3D Object Detection

自然环境下的目标检测如何转换到3D空间下。

CVPR2017相关文章:

  • Visual-Inertial-Semantic Scene Representation for 3D Object Detection;
  • Multi-View 3D Object Detection Network for Autonomous Driving;
  • Amodal Detection of 3D Objects: Inferring 3D Bounding Boxes From 2D Ones in RGB-Depth Images

4、text detection

TEXT Detection

图像里文字的检测和识别。

CVPR2017相关文章:

  • Deep Matching Prior Network: Toward Tighter Multi-Oriented Text Detection;
  • End-To-End Concept Word Detection for Video Captioning, Retrieval, and Question Answering

5、rail detection

Rain Detection

检测出图像中的雨,并且去除得到去雨的照片。(记得之前有一篇去雾的)

CVPR2017相关文章:

  • Deep Joint Rain Detection and Removal From a Single Image

6、line detection

Line Detection

图片里边缘线段的检测。

CVPR2017相关文章:

  • MCMLSD: A Dynamic Programming Approach to Line Segment Detection

7、pedestrain detection

Pedestrian Detection

行人检测一直是一个重要的topic,当然也少不了。

CVPR2017相关文章:

  • What Can Help Pedestrian Detection?;
  • CityPersons: A Diverse Dataset for Pedestrian Detection;
  • Learning Cross-Modal Deep Representations for Robust Pedestrian Detection

8、moving object detection

Moving Object Detection

移动物体检测不同于基于视频的目标检测,移动物体一般都是移动速度很快的物体(汽车,摩托,飞机,动物等等)。

CVPR2017相关文章:

  • Minimum Delay Moving Object Detection

9、facial landmark detection

Facial Landmark Detection

人脸关键点检测也是一个一直很火热的话题。

CVPR2017相关文章:

  • A Deep Regression Architecture With Two-Stage Re-Initialization for High Performance Facial Landmark Detection;
  • Simultaneous Facial Landmark Detection, Pose and Deformation Estimation Under Facial Occlusion;
  • Interspecies Knowledge Transfer for Facial Keypoint Detection

10、small object detection

Small Object Detection

小目标检测一直是目标检测任务的一个难点,这一篇是小交通标志检测。

  • Perceptual Generative Adversarial Networks for Small Object Detection

feature pyramid networks for object detection 阅读

1、introduction

小目标检测和尺度变化比较大的目标检测一直是目标检测任务的一大难点。

特征金字塔一直是传统方法应对这一难点最常用的方法。

但是对于深度学习:费时费力。

如何设计适合深度学习的特征金字塔?

2、some DL feature pyramid

(a) 用图片金字塔生成特征金字塔 (b) 只在特征最上层预测 (c) 特征层分层预测 (d) FPN从高层携带信息传给底层,再分层预测

各自特点:

(a).运算耗时会增加4倍,训练深度网络的时候太吃显存; (b).前后层之间由于不同深度(depths)影响,语义信息差距太大; (c).SSD就是这样的形式,但是对于高分辨率的底层特征没有再利用,而这些层对于检测小目标很重要; (d).把低分辨率、高语义信息的高层特征和高分辨率、低语义信息的低层特征进行自上而下的侧边连接,使得所有尺度下的特征都有丰富的语义信息.

3、bottom-up pathway

  • 自底向上的过程就是神经网络普通的正向传播;
  • 特征图经过卷积核计算,通常是越变越小的;
  • same network stage:feature map大小相同的地方,只抽取最上层;
  • 逐层抽取特征;
  • ResNets的卷积层,分为了{C1_x,C2_x,C3_x,C4_x,C5_x}用了 C2,C3,C4,C5 最后的 feature map;

4、top-down pathway and lateral connections

迭代最开始时:C5 + 1 * 1的卷积核-->最粗略的特征图(P5)

高层特征做2倍上采样-->与下一层同样大小的 featuremap

低层特征+1*1卷积,改变channel数-->与前一层相同channel特征图

上下相同channel 相同大小的特征图,像素间加法-->融合后的特征图 (C4->C4’)

3 * 3的卷积核处理已经融合的特征图-->消除混叠效应(C4'->P4)

不断迭代,前面抽取的C2,C3,C4,C5,各自对应融合的特征图{P2, P3, P4, P5}

5、why does FPN improves Features for small objects?

FPN leverages contextual information passed top-down for small objects.

FPN increases feature resolution for small objects.

对于小物体,一方面我们需要高分辨率的 feature map 更多关注小区域信息,另一方面,如图中的足球一样,需要更全局的信息更准确判断足球的存在及位置。(这是作者在poster上的解释,poster那张图太模糊了,就借用习大大的照片了)

原文发布于微信公众号 - 人工智能LeadAI(atleadai)

原文发表时间:2018-01-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏视觉求索无尽也

【图像检索】【TPAMI重磅综述】 SIFT与CNN的碰撞:万字长文回顾图像检索任务十年探索历程

基于内容的图像检索任务(CBIR)长期以来一直是计算机视觉领域重要的研究课题,自20世纪90年代早期,研究人员先后采用了图像的全局特征,局部特征,卷积特征的方法...

1681
来自专栏专知

【BicycleGAN】NIPS 2017论文图像转换多样化,大幅提升pix2pix生成图像效果

【导读】你一定记得非常热门的加州大学伯克利分校在CVPR2017上提出的图片翻译 pix2pix,它使用GAN方法可以将白马“转化”为斑马,可以把积木“转化”为...

9405
来自专栏SIGAI学习与实践平台

目标检测算法之YOLO

先假设一个场景,幼儿园老师给小朋友们出了一个题目,看谁能最快的找出笑的最美的那张脸?各位SIGAIer也可以试验下,和小朋友们比比测试下自己的辨识能力。

1222
来自专栏SIGAI学习与实践平台

自然场景文本检测识别技术综述

白蛇: 白纸黑字的扫描文档识别技术已经很成熟,而自然场景图像文本识别的效果还不理想。倾斜字、艺术字、变形字、模糊字、形似字、残缺字、光影遮蔽、多语言混合文本等应...

1012
来自专栏书山有路勤为径

目标跟踪与定位——Introduction to motion

要随着时间变化来跟踪物体并检测动作: 方法之一是提取特定的特征 观察这些特征是怎么从一帧变化到下一帧的,这里可以用到光流法(optical flow)。

642
来自专栏机器学习算法全栈工程师

【TPAMI重磅综述】 SIFT与CNN的碰撞:万字长文回顾图像检索任务十年探索历程(下篇)

本文是《SIFT Meets CNN: A Decade Survey of Instance Retrieval》的下篇。在上 篇中概述了图像检索任务极其发...

1083
来自专栏人工智能LeadAI

iOS 图片风格转换(CoreML)

前言 图片风格转换最早进入人们的视野,估计就是Prisma这款来自俄罗斯的网红App。他利用神经网络(多层卷积神经网络)将图片转换成为特定风格艺术照片。利用图片...

4208
来自专栏人工智能LeadAI

TensorFlow从0到1 | 第十一章 74行Python实现手写体数字识别

到目前为止,我们已经研究了梯度下降算法、人工神经网络以及反向传播算法,他们各自肩负重任: 梯度下降算法:机器自学习的算法框架; 人工神经网络:“万能函数”的形式...

38113
来自专栏一棹烟波

语音增强(降噪)之一——谱减法

博主最近转战语音增强研究,刚学习了最基础也是最成熟的方法——谱减法,最早是boll提出的《Suppression of acousic noise in spe...

2485
来自专栏Python中文社区

深度学习入门:用MNIST完成Autoencoder

專 欄 ❈那只猫,Python中文社区专栏作者,Python中文社区新Logo设计人,纯种非CS科班数据分析人,沉迷Keras。在Cambridge做了点小事...

1996

扫码关注云+社区