CVPR—II | 经典网络再现，全内容跟踪

计算机视觉研究院

发布于 2018-04-17 15:46:37

6360

发布于 2018-04-17 15:46:37

文章被收录于专栏：计算机视觉战队

今天首先给大家带来“YOLO”！也被上一篇“Faith”读者说对了，在此也感谢大家的关注与阅读，O(∩_∩)O谢谢

YOLO

看到这个封面，相信很多很多都阅读过，其实这是一篇“基于回归方法的深度学习目标检测算法”的经典之作，如果兴趣的您，可以再一次阅读。

会不会有朋友认为YOLO的缩写是You Only Live Once？？？O(∩_∩)O，其实是You Only Look Once。

相比于之前介绍的几个网络，明显高于之前说的几个简单目标检测网络。下面来一个YOLO V2的宣传片！有兴趣的您，可以自己去做一个模型玩一玩，其实过程很不错！（“计算机视觉战队”微信平台的人脸检测与识别技术（怎么去创新？）也有简单的Demo。）

视频内容

回归正题，开始说内部的内容！

我自己来总结下YOLO：

YOLO网络的结构和在之前得模型比较类似，主要是最后两层的结构，卷积层之后接了一个4096维的全连接层，然后后边又全连接到7*7*30维的张量上。实际上这个7*7就是划分的网格数，现在要在每个网格上预测目标两个可能的位置及这个位置的目标置信度和类别，也就是每个网络预测两个目标，每个目标的信息有4维坐标信息（中心点坐标+长宽），1个目标的置信度，还有类别数20（因为在VOC数据集上，所以是20），总共就是（4+1）*2+20=30维的张量。这样就可以利用前面4096维的全连接映射特征直接在每个网格上回归处目标检测需要的信息（BB和Class）。

Result