Object detection at 200 Frames Per Second
本文在 Tiny Yolo 的基础上设计了一个目标检测网络,在 Nvidia 1080ti 上可以达到 100帧每秒。
本文主要成果有三点:1)网络结构上的设计改进;2) Distillation loss for Training,使用 teacher network 辅助训练;3)Effectiveness of data,Unlabeled data 的利用。
2 网络结构设计 Architecture customizations
Dense feature map with stacking 简单的来说就是多尺度卷积特征容易 大量使用 the bottleneck layers 和 1x1 convolutional layers 使得我们的网络 Deep but narrow,我们的网络简称为 F-Yolo
3 Distillation loss for Training 简单的来说就是使用一个高精度的目标检测器作为 teacher network 来辅助我们的快速检测网络 F-Yolo 的训练。
直接将基于 RCNN检测框架的 distillation 技术应用到 YOLO 存在问题。基于 RCNN 检测方法在候选区域提取步骤对背景做了一次过滤。而 single stage detector 没有过滤背景,导致大部分候选区域都是背景。 the dense sampling of the single stage detector introduces certain problems which makes the straight forward application of distillation ineffective.
这里针对这个问题主要是对 损失函数做了改动来解决的。
基于 非极大值抑制的区域过滤也需要改进,
4 Effectiveness of data
11