前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >目标检测- YOLO v1--You Only Look Once

目标检测- YOLO v1--You Only Look Once

作者头像
用户1148525
发布2019-05-26 12:19:07
3810
发布2019-05-26 12:19:07
举报

You Only Look Once: Unified, Real-Time Object Detection

项目主页: http://pjreddie.com/darknet/yolov1/

考虑到 YOLO v2 的性能,这里我又回过头来温习了一下 YOLO v1,比较 YOLO v1 是 YOLO v2 的基础。 YOLO v1 的提出主要是侧重于速度,检测效果要比 Fast RCNN/Faster RCNN 差不少。

YOLO 主要有以下几个特点: 1)速度很快,我们将检测变成一个回归问题,不需要复杂的流程。在测试阶段,我们只需要对新图像跑一下我们的神经网络,就可以得到预测结果。我们的基准网络可以在 Titan X GPU 不经过批处理下得到 每秒 45帧的处理速度。快速网络可以得到每秒 150 帧。在实时检测系统中, YOLO的效果是最好的。

2) YOLO 在做出预测时是推理整个图像的。与滑动窗口和候选区域算法不同, YOLO 在训练和测试时,从整个图像综合考虑,不仅分析物体的 appearance 还分析其 contextual 信息。Fast R-CNN 比较容易将背景误检测为物体,因为它不考虑 contextual 信息。YOLO 把背景误检测为物体的概率不到 Fast R-CNN 的一半。

3)YOLO 对物体的泛化能力比较好。当在自然图像上训练,在艺术图像上检测时,YOLO的效果要比 DPM 和 R-CNN 好很多。

YOLO和当前其它流行检测系统相比较,YOLO的准确性要差一些。它能够快速检测出物体,但是对于精确定位出物体则有点力不从心,尤其是对于小物体时。

我们的模型和代码都是开源的,可以网上下载。

2 Unified Detection 我们将目标检测的不同模块统一到一个网络中。我们的网络直接从整个图像提取特征用于预测每个矩形框。它同时给出每个矩形框对应所有类型的概率。这意味着我们的网络在整幅图像上进行全局推理,检测出图像上所有的物体。YOLO的设计使其可以端对端的训练,在保持很好检测精度下得到实时检测速度。

我们的系统将输入图像分为 S × S网格,如果物体的中心落入某一网格,那么该网格负责将该物体检测出来。

每个网络我们预测B个矩形框和对应的置信度。每个置信度反映模型对该网格包含有物体的信心以及它认为该网格预测的准确性。我们将置信度定义为 Pr(Object) ∗ IOU(truth/pred),如果该网格没有包含物体,则置信度必须为0. 否则我们希望置信度等于预测的矩形框和真值框的 IOU。

每个矩形框包含5个预测量: x,y,w,h,confidence。 (x,y)表示矩形框中心与网格顶点的相对坐标。预测的宽度和高度相对于整幅图像。预测的置信度表示预测的矩形框和真值框的 IOU。

每个网格也预测了C个类别概率,这些概率是假设该网格包含一个物体。我们只对每个网格给出一组类别概率,不考虑预测的矩形框B。 在测试时,我们将条件类别概率乘以单个预测矩形框置信度。

这里写图片描述
这里写图片描述

2.1. Network Design

这里写图片描述
这里写图片描述

受 GoogLeNet 模型启发,我们的网络有24个卷积层,2个全链接层。我们没有使用 GoogLeNet 中的 inception 模型,而是使用了 1×1 降维层,随后是 3×3 卷积层。

快速版 YOLO 只有9个卷积层,其他的都一样。

我们的网络输入是 7 × 7 × 30 预测张量。

2.2. Training 我们在 1000类 ImageNet 竞赛数据上预训练我们的网络。我们使用图3中前20层卷积网络,随后是一个 平均池化层和一个全链接层训练。在 ImageNet 2012 validation set 得到 crop top-5 88% 。

接着我们将这个模型用于检测。参考文献【28】,我们加了4个卷积层,2个全链接层,这些层的参数都随机初始化。为了得到更多图像细节信息,我们网络输入图像尺寸由 224 × 224 放大到 448 × 448。

我们最后一层给出类别概率和矩形框坐标的预测。我们将坐标都归一化到 0-1之间。

最后一层我们使用线性激活函数,其它层都使用 下面的 leaky rectified 线性激活函数:

这里写图片描述
这里写图片描述

我们的模型误差函数使用 sum-squared error。使用它主要是其优化简单,但是和我们的目标函数不是很匹配。为此我们加入了两个权值参数改善这个情况。

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017年03月10日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像识别
腾讯云图像识别基于深度学习等人工智能技术,提供车辆,物体及场景等检测和识别服务, 已上线产品子功能包含车辆识别,商品识别,宠物识别,文件封识别等,更多功能接口敬请期待。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档