专栏首页AI算法修炼营全面解析YOLO V4网络结构

全面解析YOLO V4网络结构

点击上方“AI算法修炼营”,选择“星标”公众号

精选作品,第一时间送达

作者|周威,https://zhuanlan.zhihu.com/p/150127712

本文已获作者授权,不得二次转载。

1.前言

最近用YOLO V4做车辆检测,配合某一目标追踪算法实现车辆追踪+轨迹提取等功能,正好就此结合论文和代码来对YOLO V4做个解析。先放上个效果图(半成品),如下:

话不多说,现在就开始对YOLO V4进行总结。

YOLO V4的论文:《YOLOv4: Optimal Speed and Accuracy of Object Detection》,相信大家也是经常看到这几个词眼:大神接棒、YOLO V4来了、Tricks 万花筒等等。

没错,通过阅读YOLO V4的原文,我觉得它更像一篇目标检测模型Tricks文献综述,可见作者在目标检测领域的知识(炼丹技术)积累之多。

从本质上,YOLO V4就是筛选一些从YOLO V3发布至今,被用在各式各样检测器上,能够提高检测精度tricks,并以YOLO V3为基础进行改进的目标检测模型。YOLO V4在保证速度的同时,大幅提高模型的检测精度(当然,这是相较于YOLO V3的)。

上图可以看出来,虽然检测精度不如EfficientDet这种变态,但是速度上是遥遥领先的,说明YOLO V4并没有忘记初心(速度和精度的trade off,我YOLO才是佼佼者)!

其实我是比较推荐大家看看YOLO V4原文的,就当炼丹手册来看也是挺好的,如果你懒得看,那这里我贴出来一张图,就是最终YOLO V4的炼丹配方,如下:

YOLO V4炼丹配方

这么一看,这炼丹配方多清晰呀,和YOLO V3对比,主要做了以下改变:

  1. 相较于YOLO V3的DarkNet53,YOLO V4用了CSPDarkNet53
  2. 相较于YOLO V3的FPN,YOLO V4用了SPP+PAN
  3. CutMix数据增强和马赛克(Mosaic)数据增强
  4. DropBlock正则化
  5. 等等

这技巧太多了,着实让人数不过来。按照惯例,我喜欢结合代码对模型进行解析,论文的话看个思路,实现的细节还是在代码中体现的较具体。原作者YOLO V4的代码是基于C++的,如下:

YOLO V4 C++(原版)

https://github.com/AlexeyAB/darknet

这个解析起来太麻烦了,我找了个看起来不麻烦的,基于Keras+Tensorflow的,如下:

YOLO V4 Keras版本

https://github.com/Ma-Dan/keras-yolo4

本次YOLO V4论文和代码解析也将基于这个版本的进行的啦!

后面的内容将按照以下步骤进行介绍。

  • (1)YOLO V4的网络结构
  • (2)YOLO V4的损失函数
  • (3)一些Tricks的具体代码实现

2. YOLO V4的网络结构

这里我先给出YOLO V4的总结构图,如下

主要有以下两部分组成

  • BackBone:CSPDarknet53
  • Neck:SPP+PAN

接下面将逐个分析!

2.1 BackBone:CSPDarknet53

目前做检测器MAP指标的提升,都会考虑选择一个图像特征提取能力较强的backbone,且不能太大,那样影响检测的速度。YOLO V4中,则是选择了具有CSP(Cross-stage partial connections)的darknet53,而是没有选择在imagenet上跑分更高的CSPResNext50,

原因很简单,如上表,作者说:

For instance, our numerous studies demonstrate that the CSPResNext50 is considerably better compared to CSPDarknet53 in terms of object classification on the ILSVRC2012 (ImageNet) dataset [. However, conversely, the CSPDarknet53 is better compared to CSPResNext50 in terms of detecting objects on the MS COCO dataset

意思就是结合了在目标检测领域的精度来说,CSPDarknet53是要强于CSPResNext50,这也告诉了我们,在图像分类上任务表现好的模型,不一定很适用于目标检测(这不是绝对的!)。

那么这个带有CSP结构的Darknet53,到底长什么样呢?如果对CSP结构感兴趣的,欢迎点击原文链接。

这里我们直接从代码上看看这个CSPDarknet53什么样子,定义如下

如果把堆叠的残差单元(resblock_body)看成整体的话,那么这个结构和Darknet53以及ResNet等的确差别不大,特别是resblock_body的num_blocks为【1,2,8,8,4】和darknet53一模一样。

那么我们解析一下resblock_body的定义,如下:

这么一看,和传统的ResBlock差别就出来了,为了大家更清晰地了解结构,我把这个残差单元的结构绘制出来,如下:

对照代码和上面的图片,可以比较清晰地看出来这个CSP残差单元DarkNet/ResNet的残差单元的区别了。当然了,图上的DarknetConv2D_BN_Mish模块定义如下

  • (1) DarknetConv2D_BN_Mish

至此,YOLO V4的backbone部分就讲解完毕了。

2.2 Neck:SPP+PAN

目标检测模型的Neck部分主要用来融合不同尺寸特征图的特征信息。常见的有MaskRCNN中使用的FPN等,这里我们用EfficientDet论文中的一张图来进行说明。

可见,随着人们追求检测器在COCO数据集上的MAP指标,Neck部分也是出了很多花里胡哨的结构呀。

本文中的YOLO V4就是用到了SPP(Spatial pyramid pooling)+PAN(Path Aggregation Network,上图的结构b)。

这里我们根据总图上的process1-6,对SSP+PAN部分进行解析。

(1) 其中process1的代码实现为:

显而易见,该进程接受CSPDarknet53最终的输出,返回变量y19(如总图上process1所示),这里我们也给出图示,如下:

Process1

(2) process2 代码如下

即先将上述的y19进行上采样大小38x38,然后再和CSPDarknet53的204层输出进行堆叠,最后通过一系列DarknetConv2D_BN_Leaky模块,获得变量y38。

(3) process3的代码如下,类似于process2

(4) process4的代码如下

    
这个比较简单,直接通过一个DarknetConv2D_BN_Leaky,然后使用1x1卷积输出最大的一张特征图y76_output,维度为**(76,76,num_anchor*(num_classes+5))**。

(5) process5的代码如下:

这一步骤比较关键,PAN和FPN的差异在于,FPN自顶向下的特征融合,PANFPN基础上,多了个自底向上的特征融合。具体自底向上的特征融合,就是process5完成的,可以看到该步骤先将y76下采样至38x38大小,再和y38堆叠,然后进行一系列卷积运算获得维度大小为**(38,38,num_anchor*(num_classes+5))的输出y38_output**,如下图所示。

Process5

(6) Process6代码如下

Process6和process5进程类似,不多赘述,输出为(19,19,num_anchor*(num_classes+5))的特征图y19_output。

3.结束语

上述有关YOLO V4的网络结构就讲到这里,我看了下,篇幅又有点长了,那关于损失函数和更多tricks实现的细节,我就放到后面再讲了,感谢大家支持!

本文分享自微信公众号 - AI算法修炼营(AI_SuanFa),作者:周威

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-07-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 基础积累 | 图像分割损失函数最全面、最详细总结,含代码

    论文地址:https://arxiv.org/pdf/2006.14822.pdf

    AI算法修炼营
  • PolyLaneNet:最新车道线检测开源算法,多项式回归实时高效

    论文地址:https://arxiv.org/pdf/2004.10924.pdf

    AI算法修炼营
  • 日常读paper | 一款口罩检测应用 ——RetianMask

    论文地址:https://arxiv.org/pdf/2005.03950.pdf

    AI算法修炼营
  • 重磅!YOLO-LITE来了(含论文精读和开源代码)

    看名字,就知道属于YOLO系列。这篇文章于2018年11月15日首发在arXiv上,考虑到该work开源了,于是Amusi就特意深挖一下推荐给大家。

    Amusi
  • 再论桥接模式(上)纸上谈兵

    声明: 1、 这里不是讲解桥接模式,因为我觉得我没有那个实力,我现在还没有完全理解桥接模式。 2、 这里只是想把我这几天的思考、在群里的讨论整理一下,给自己...

    用户1174620
  • 中型ERP支持服务满意度:用友金蝶死磕 支持服务整体提升

    今天我们来分析中型ERP满意度调研最后一部分支持服务,曾经一直被诟病的支持服务已大有改善,移动化研究中心发现,中端ERP市场的支持服务要比高端市场做的更好。由于...

    人称T客
  • geotrellis使用(六)Scala并发(并行)编程

          本文主要讲解Scala的并发(并行)编程,那么为什么题目概称geotrellis使用(六)呢,主要因为本系列讲解如何使用Geotrellis,具体前...

    魏守峰
  • linux网络配置(自己总结的)vmware10中ubuntu设置与windows连网(图解)

    1 在windows中使用ipconfig查看windows和vmware虚拟机ip设置情况,具体如下: 无线局域网适配器 Wi-Fi:(此次用无线网络,...

    闵开慧
  • 用友董事长兼CEO、全国工商联副主席王文京:企业推进互联网化过程中要重点聚焦这四个方向

    用友网络股份有限公司董事长兼CEO、全国工商联副主席王文京在2016年中国互联网大会上发表了演讲。他讲到,所有的企业都将会是互联网企业,这句话不再是天方夜谭。但...

    数据猿
  • 华为深度学习框架MindSpore正式开源:自动微分不止计算图

    今年的华为开发者大会 HDC 2020 上,除了昇腾、鲲鹏等自研芯片硬件平台之外,最令人期待的就是深度学习框架 MindSpore 的开源了。今天上午,华为 M...

    机器之心

扫码关注云+社区

领取腾讯云代金券