深度学习用于目标检测的论文及代码集锦

文章来源：企鹅号 - 机器学习blog

[1] PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection

Kye-Hyeon Kim et al.

Intel Imaging and Camera Technology

NIPS 2016 Workshop

https://arxiv.org/pdf/1608.08021.pdf

本文核心之一C.ReLU(Concatenated rectified linear unit)示例如下

不同的inception对比如下

pvanet的网络结构表格示例如下

各模型效果对比如下

代码地址

https://github.com/sanghoon/pva-faster-rcnn

[2] R-FCN: Object Detection viaRegion-based Fully Convolutional Networks

Jifeng Dai et al.

Microsoft Research

NIPS 2016

http://papers.nips.cc/paper/6465-r-fcn-object-detection-via-region-based-fully-convolutional-networks.pdf

R-FCN核心思想如下

R-FCN整体结构示例如下

R-FCN可视化示例如下

各模型结果示例如下

代码地址

https://github.com/daijifeng001/R-FCN

[3]SSD: Single Shot MultiBox Detector

Wei Liu et al.

UNC Chapel Hill

ECCV 2016

https://www.cs.unc.edu/~wliu/papers/ssd.pdf

SSD利用深度神经网络将边界框的输出空间离散化到多个特征映射中，这些特征映射具有不同的纵横比和尺度。测试时，网络对每个箱中的物体类别给出打分，并且能够生成比较好的边界来描述物体的形状。这种网络能够结合多个具有不同分辨率的特征映射给出的预测结果，这样可以比较自然地处理物体类别具有不同尺寸的情形。

SSD以及YOLO的网络结构示例如下

各方法效果对比如下

代码地址

https://github.com/weiliu89/caffe/tree/ssd

[4] You Only Look Once: Unified, Real-Time Object Detection

Joseph Redmon et al.

University of Washington

CVPR 2016

https://pjreddie.com/media/files/papers/yolo.pdf

YOLO是一种物体检测的方法。这种方法根据图像可以利用单个神经网络来同事预测边界分割以及类别概率。这种统一的架构非常快，一秒即可实时处理45帧图像。

YOLO示例如下

网络结构示例如下

各方法效果对比如下

代码地址

https://github.com/pjreddie/darknet

[5] Faster r-cnn: Towards real-time object detection with region proposal networks

Shaoqing Ren et al.

Microsoft Research

NIPS 2015

http://papers.nips.cc/paper/5638-faster-r-cnn-towards-real-time-object-detection-with-region-proposal-networks.pdf

这篇文章提出一种更快的R-CNN，这种网络基于RPN，Region Proposal Network，RPN是一种全连接的卷积神经网络，它可以在每个位置预测物体的边界并且给出打分。结合Fast R-CNN，即可用于即时物体检测。

RPN及结果示例如下

各种方法效果对比如下

代码地址

https://github.com/ShaoqingRen/faster_rcnn

[6] Fast R-CNN

Ross Girshick

Microsoft Research

ICCV 2015

https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Girshick_Fast_R-CNN_ICCV_2015_paper.pdf

Fast R-CNN结构示例如下

各方法结果对比如下

代码地址

https://github.com/rbgirshick/fast-rcnn

[7] Spatial Pyramid Pooling in Deep ConvolutionalNetworks for Visual Recognition

Kaiming He et al.

Microsoft Research

ECCV 2014

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.699.8052&rep=rep1&type=pdf

网络结构示例如下

特征映射可视化如下

带有spp的网络结构示例如下

各方法结果对比如下

SPP用于目标检测的结构示例如下

各方法效果对比如下

代码地址

https://github.com/ShaoqingRen/SPP_net

[8]Rich feature hierarchies for accurate object detection and semantic segmentation

Ross Girshick et al.

UC Berkeley

CVPR 2014

https://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf

这篇文章所提出的方法具有两个关键的点，其中之一即为利用卷积神经网络自下而上的预测区域，进而可以定位并且分割出物体，其二即为缺少带标签的样本数据时，有监督预训练结合领域相关的微调可以使得效果具有显著提升。这种方法将区域分割跟卷积神经网络结合，因此这种方法称为R-CNN。

方法概览如下

各方法效果对比如下

代码地址

https://github.com/rbgirshick/rcnn

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

深度学习用于目标检测的论文及代码集锦

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐