前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >手把手教你用深度学习做物体检测(七):YOLOv3介绍

手把手教你用深度学习做物体检测(七):YOLOv3介绍

作者头像
程序员一一涤生
发布2019-09-10 19:11:16
1K0
发布2019-09-10 19:11:16
举报
文章被收录于专栏:程序员一一涤生

YOLOv3

论文:《 YOLOv3: An Incremental Improvement 》
地址: https://arxiv.org/pdf/1804.02767.pdfyolov3
相比之前版本的改进
  • 网络的特征提取部分 由 Darknet-19改成了 Darknet-53,更深了,速度确有下降,但是相比ResNet来说仍然高很多。
b799f7151e3a56e0c6678fdae50a3c00.png
b799f7151e3a56e0c6678fdae50a3c00.png
9d554116caf26a6a91d11ab2569aec06.png
9d554116caf26a6a91d11ab2569aec06.png
  • 跨尺度预测 yolov3网络在3个不同尺寸的特征图下,每个尺寸的特征图预测出3个boxes,anchor box还是采用聚类的方法得到9个anchor box,然后3个不同的尺寸特征图各得到3个anchor box。 这样就得到了N ×N ×[3∗(4+1+80)] ,N为格子大小(13*13、26*26、52*52),3为每个格子得到的边界框数量, 4是边界框参数数量(x,y,w,h),1是置信度(包含类别和边界框位置),80是类别数量(这里coco数据集是80类)。
dc15c8d08efd69014003e733f7459377.png
dc15c8d08efd69014003e733f7459377.png

yolo3会利用第82、94、106层的特征图来进行不同尺寸的目标检测。 82层的图像小(分辨率低),感受野大,可以到检测图像中较大的目标; 94层的图像中等,感受野中等,可以检测到图像中不大也不小的目标; 106层的图像大(分辨率高),但感受野相对最小,可以检测到图像中较小的目标。 所以如果训练过程中,发现某层的输出值是非数,这只是说明在这层没有检测到目标对象,只要三层中至少有一层能输出正常的数字,就是正常的。 从图上也可以看到,为了能同时学到浅层和深层的特征,上面的82、94层特征图自身经过上采样后还会和早期层的特征图做一些拼接(concat)操作。用论文原话说就是:这样的方法让我们从上采样特征中得到更多有意义的语义信息;从更早期的特征中得到纹理信息(finer-grained information)。

  • 类别预测 因为每个边界框都采用多标签分类器来预测包含的类别,所以作者 没有使用softmax,而是为每个类别的预测使用了相互独立的逻辑回归分类器。该方法使得yolov3可以训练类像Open Images数据集那么复杂的数据,该数据集有许多包含属性的标签,比如(比如对图像中的一个人进行标注,可以有“女人”和“人”等多个标签)。
yolov3性能对比图表:
02eb463917889391964e568f7b1d0deb.png
02eb463917889391964e568f7b1d0deb.png
总结一下:
  • YOLOv1提出了一个端到端的目标检测模型,输入图片,仅跑一个网络,即可识别出图片中的目标类型和目标的位置。
  • YOLOv1相比其他模型,更快,已经可以达到实时检测的水品;泛化能力更强,即使在自然图片上训练,然后在艺术图片上测试也能有很好的表现。
  • YOLOv1的缺点也很明显:在目标位置的预测上还不够准确;很难检测小目标(比如鸟群);很难泛化到新的或不常见的纵横比图片上;
  • YOLOv2在学习速度、准确度、对小目标的检测、对不同尺度图片的检测上都有提升;
  • YOLOv3采用了更深的网络来提取特征,准确度提升了2%以上,速度下降了,但是仍然比其他模型要高很多;
  • YOLOv3采用了跨尺度预测和FPN( feature pyramid networks)的结构,综合考虑了浅层的特征和深层的特征,使得位置信息和语义信息都能更准确的预测;
  • YOLOv3可以训练类像Open Images那样复杂的数据集,因为作者 没有使用softmax,而是为每个类别的预测使用了相互独立的逻辑回归分类器。

ok,yolo的原理和各版本差异就介绍到这里啦,还想了解更多细节的朋友建议亲自读一读原论文,然后结合之前笔者写的几篇目标检测系列的文章亲自上手操作一下,会有更深的理解。

参考文献: https://arxiv.org/pdf/1506.02640.pdf https://arxiv.org/pdf/1612.08242v1.pdf https://arxiv.org/pdf/1804.02767.pdfyolov3 https://towardsdatascience.com/yolo-v3-object-detection-53fb7d3bfe6b

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019-09-06 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • YOLOv3
    • 相比之前版本的改进
      • yolov3性能对比图表:
        • 总结一下:
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档