使用Faster-Rcnn进行目标检测

Object Detection发展介绍

Faster rcnn是用来解决计算机视觉(CV)领域中Object Detection的问题的。经典的解决方案是使用: SS(selective search)产生proposal,之后使用像SVM之类的classifier进行分类,得到所有可能的目标. 使用SS的一个重要的弊端就是:特别耗时,而且使用像传统的SVM之类的浅层分类器,效果不佳。 鉴于神经网络(NN)的强大的feature extraction特征,可以将目标检测的任务放到NN上面来做,使用这一思想的目标检测的代表是: RCNN Fast-RCNNFaster-RCNN YOLO等 简单点说就是:

RCNN 解决的是,“为什么不用CNN做detection呢?”

Fast-RCNN 解决的是,“为什么不一起输出bounding box和label呢?”

Faster-RCNN 解决的是,“为什么还要用selective search呢?”

Faster-Rcnn原理简介

鉴于之上的分析,想要在时间上有所突破就要在如何更快的产生proposal上做工夫。 Faster使用NN来做region proposal,在Fast-rcnn的基础上使用共享卷积层的方式。作者提出,卷积后的特征图同样也是可以用来生成 region proposals 的。通过增加两个卷积层来实现Region Proposal Networks (RPNs) , 一个用来将每个特征图 的位置编码成一个向量,另一个则是对每一个位置输出一个 objectness score 和 regressed bounds for k region proposals.

RPN

RPN的作用有以下几个:

(1) 输出proposal的位置(坐标)和score (2) 将不同scale和ratio的proposal映射为低维的feature vector (3) 输出是否是前景的classification和进行位置的regression

这里论文提到了一个叫做Anchor的概念,作者给出的定义是:

The k proposals are parameterized relative to k reference boxes, which we call anchors

我的理解是:不同ratio和scale的box集合就是anchor, 对最后一层卷积生成的feature map将其分为n*n的区域,进行不同ratio和scale的采样.

RPN的cls和reg

RPN输出对于某个proposal,其是属于前景或者背景的概率(0 or 1),具体的标准论文里给出的是:

和所有的ground-truth的IoU(Intersection-over-union)小于0.3视为negative(背景)

和任意的ground-truth的IoU大于0.7视为positive(前景)

不属于以上两种情况的proposal直接丢掉,不进行训练使用

对于regression,作用是进行proposal位置的修正:

学习k个bounding-box-regressors

每个regresso负责一个scale和ratio的proposal,k个regressor之间不共享权值

RPN Training

两种训练方式: joint trainingalternating training 两种训练的方式都是在预先训练好的model上进行fine-tunning,比如使用VGG16、ZF等,对于新加的layer初始化使用random initiation,使用SGD和BP在caffe上进行训练

alternating training

首先训练RPN, 之后使用RPN产生的proposal来训练Fast-RCNN, 使用被Fast-RCNN tuned的网络初始化RPN,如此交替进行

joint training

首先产生region proposal,之后直接使用产生的proposal训练Faster-RCNN,对于BP过程,共享的层需要combine RPN loss和Faster-RCNN loss

Result

结果自然不用说,肯定是state-of-art,大家自己感受下吧

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

你真的理解反向传播吗?面试必备

深度学习框架越来越容易上手,训练一个模型也只需简单几行代码。但是,在机器学习面试中,也会考量面试者对机器学习原理的掌握程度。反向传播问题经常出现,不少人碰到时仍...

1704
来自专栏深度学习之tensorflow实战篇

随机森林基本原理

基础内容: 这里只是准备简单谈谈基础的内容,主要参考一下别人的文章,对于随机森林与GBDT,有两个地方比较重要,首先是information gain,其次是决...

3469
来自专栏ATYUN订阅号

新手,你需要了解的关于神经网络的所有知识

这篇文章将带你了解什么是人工智能,机器学习和深度学习。 ? 神经元(Node)  – 它是神经网络的基本单位。它获得一定数量的输入和一个偏置值。当信号(值)到...

3757
来自专栏深度学习与计算机视觉

Object Detection系列(五) R-FCN

Object Detection系列(一) R-CNN Object Detection系列(二) SPP-Net Object Detection系...

4576
来自专栏CSDN技术头条

卷积神经网络CNN

本文学习笔记的部分内容参考zouxy09的博客,谢谢! http://blog.csdn.net/zouxy09/article/details/8775360...

2577
来自专栏机器学习算法工程师

绝对不容错过:最完整的检测模型评估指标mAP计算指南(附代码)在这里!

本文翻译自Measuring Object Detection models - mAP - What is Mean Average Precision?(...

4147
来自专栏AI科技大本营的专栏

北大、北理工、旷视联手:用于图像语义分割的金字塔注意力网络

近日,北京理工大学、旷视科技、北京大学联手,发表了一篇名为 Pyramid Attention Network for Semantic Segmentatio...

1002
来自专栏图像识别与深度学习

2018-04-21 语义分割Semantic segmentation

35010
来自专栏机器学习算法工程师

Object Detection系列(一)R-FCN

作者:张 旭 编辑:祝鑫泉 ? Object Detection系列(一) R-FCN R-FCN简介 上面这张图在这个系列文章中都会出现,可以看到,在时...

2823
来自专栏深度学习与计算机视觉

理解梯度下降在机器学习模型优化中的应用

认识梯度下降算法 这篇博客的内容是为了介绍梯度下降算法在模型优化中的作用,也就是说,正常的顺序是我们要学习一个模型(确定模型参数),在优化这么未知模型的时候,使...

2518

扫码关注云+社区