前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >重温目标检测--YOLO v2 -- YOLO9000

重温目标检测--YOLO v2 -- YOLO9000

作者头像
用户1148525
发布2019-05-27 12:11:21
5720
发布2019-05-27 12:11:21
举报

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://cloud.tencent.com/developer/article/1436556

YOLO9000:Better, Faster, Stronger

CVPR 2017, Best Paper Honorable Mention

https://pjreddie.com/darknet/yolo/

本文是对 YOLO v1 的改进。

2 Better

YOLO v1 主要问题有两个:1)localization error 较高;2)relatively low recall

主要的改进细节如下表所示:

Batch Normalization: 主要作用是加速网络的收敛,这样就不再需要其他形式的 regularization,我们在 YOLO 所有的卷积层上面使用 Batch Normalization ,有了 Batch Normalization 我们就不需要使用 dropout了。提升了 2% mAP

High Resolution Classifier: 目前主要的检测方法都使用在 ImageNet 数据库上预训练的分类器。从 AlexNet 开始,大部分分类器的输入图像尺寸都小于 256 × 256。 YOLO v1 的训练策略是首先在 224 × 224 上面训练,然后在 448 尺寸上做检测训练。这意味着网络需要适应不同尺寸的检测。

对于 YOLO v2 我们首先在 448×448尺寸的 ImageNet 数据库训练 10个 epochs,然后在检测数据库上微调。 这个高分辨率分类网络提升了 近 4% mAP

Convolutional With Anchor Boxes

YOLO v1 直接在卷积特征图上使用全连接层进行矩形框坐标的预测。 Faster R-CNN 没有直接预测坐标,使用手工先验知识来预测矩形框,这里的 hand-picked priors 就是若干 Anchor Boxes,这些 boxes 形状大小的选择依赖于待检测物体的先验知识,手工设计的。Faster R-CNN 中的 RPN 只使用卷积层来预测 anchor boxes 的偏差和置信度。因为预测层是卷积的,所以RPN 在特征图每个位置预测矩形框偏差。 预测偏差相对于坐标简化了网络学习的难度。

在 YOLO v2中,我们去掉了 YOLO v1 中的全连接层,使用 anchor boxes 来预测矩形框。首先我们去除了一个池化层,这样增加了特征图尺寸大小。我们也将图像的输入尺寸从 448×448 变为 416×416,这么做的目的是使得最终的特征图尺寸为奇数,检测位置的唯一性。

当我们使用了 anchor boxes 时,我们同时也将空位置从类别预测机制中分离出来,我们对每个 anchor boxe 预测类别和 objectness。 和 YOLO v1 一样,objectness预测仍然是 预测 the IOU of the ground truth and the proposed box, 类别预测是假定存在一个物体时,该物体的类别概率。

使用 anchor boxes 我们的精度有所下降,但是 recall 提升较大。 YOLO v1( 69.5 mAP with a recall of 81%) 我们对每个图像只预测了98 个矩形框,在 YOLO v2(69.2 mAP with a recall of 88%) 中使用了 anchor boxes 后 我们预测的矩形框数超过 1000个。recall 的提升意味着我们的模型有更大的改进空间。

Dimension Clusters 在 YOLO v2 使用 anchor boxes 我们面临两个问题。第一个问题就是 box dimensions ,即使用多少个 anchor boxes 的问题?在 Faster R-CNN 中这个是手工挑选的。如果我们能够根据先验知识挑选更好的数量,那么网络应该更容易学习。

这里我们没有手工挑选,而是在训练的矩形框集合里使用 k-means 聚类方法自动找到好的先验知识 good priors

We choose k = 5 as a good tradeoff between model complexity and high recall…

Direct location prediction 使用 anchor boxes 面临的第二个问题是模型的稳定性,尤其是在训练迭代的早期。

造成这个原因是位置预测公式没有约束 This formulation is unconstrained so any anchor box can end up at any point in the image, regardless of what locationpredictedthebox

Since we constrain the location prediction the parametrization is easier to learn, making the networkmore stable

Fine-Grained Features : 针对小目标检测,这里我们采用了另一个方式来利用 较大尺寸的特征图,simply adding a passthrough layer that brings features from an earlier layer at 26 × 26 resolution

Multi-Scale Training: 多尺度输入图像的训练可以提升网络的性能

3 Faster 为了提高网络的检测速度,我们从新设计了一个 Darknet-19

4 Stronger 这里主要是充分利用现有的分类数据库来提升检测网络的检测类别,采用 WordTree 来增加物体检测类别

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018年09月20日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像识别
腾讯云图像识别基于深度学习等人工智能技术,提供车辆,物体及场景等检测和识别服务, 已上线产品子功能包含车辆识别,商品识别,宠物识别,文件封识别等,更多功能接口敬请期待。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档