专栏首页机器学习、深度学习重温目标检测--YOLO v3

重温目标检测--YOLO v3

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhangjunhit/article/details/82786058

YOLOv3: An Incremental Improvement https://pjreddie.com/yolo/

本文是对 YOLO系列的进一步完善。 先上和其他检测算法的 COCO 对比结果

2.1. Bounding Box Prediction 和 YOLO v2 一样,这里我们采用了 dimension clusters as anchor boxes 来预测矩形框坐标,这一部分基本没有改变

2.2. Class Prediction 在进行类别预测时,我们没有采用 softmax 而是采用了 independent logistic classifiers, 主要是因为有时类别之间有重叠overlapping labels (i.e. Woman and Person), A multilabel approach better models the data.

2.3. Predictions Across Scales 多尺度特征图上进行检测,这里我们借鉴 FPN 在 3个不同尺寸特征图进行检测

我们仍然使用 k-means 聚类来选择 bounding box priors。 We just sort of chose 9 clusters and 3 scales arbitrarily and then divide up the clusters evenly across scales. On the COCO dataset the 9 clusters were: (10×13),(16×30),(33×23),(30×61),(62×45),(59×119),(116 × 90),(156 × 198),(373 × 326).

2.4. Feature Extractor 这里我们设计了一个新的网络 Darknet-53,计算量比 Darknet-19 要大,但是性能更强

在 ImageNet 上不同网络结构的 精度和运算量 对比

2.5. Training 我们没有采用 hardnegativemining 或其他手段。采用了 multi-scale training, lots of data augmentation, batch normalization, all the standard stuff.

3 How We Do In terms of COCOs weird average mean AP metric it is on par with the SSD variants but is 3× faster

4 Things We Tried That Didn’t Work 我们也尝试了一些思路,但是效果不是很好,这里也介绍了一下。 1)Anchor box x,y offset predictions 2)Linear x,y predictions instead of logistic 3)Focal loss 4)Dual IOU thresholds and truth assignment

总结一下主要改进的地方: 1)v3替换了v2的softmax loss 变成logistic loss,而且每个ground truth只匹配一个先验框。 2)v2作者用了5个anchor,v3用了9个anchor,提高了IOU 3)使用 多尺度特征图检测,这一步对小目标检测的提升最大 4)设计了 Darknet-53 虽然 Darknet-53 的计算量是 Darknet-19的两倍,但是 BFLOP/s (billion floating point operations per second) 却相差不太多

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 语义分割--Efficient Deep Models for Monocular Road Segmentation

    Efficient Deep Models for Monocular Road Segmentation code: https://lmb.inform...

    用户1148525
  • 人群行为分析--Understanding Pedestrian Behaviors from Stationary Crowd Groups

    Understanding Pedestrian Behaviors from Stationary Crowd Groups CVPR2015 本文主要探...

    用户1148525
  • 统计学习导论 Chapter2--What Is Statistical Learning?

    Book: An Introduction to Statistical Learning with Appli...

    用户1148525
  • 通过将语义和统计技术结合来动态丰富网络主体(cs.CL)

    翻译:伴随着语义网技术的发展,开始更多使用本体来存储和提取覆盖多个领域的信息。但是,很少有本体能够处理得当不断更新的语义信息日益增长的需求,亦或是针对专业领域用...

    Donuts_choco
  • 伯克利大学计算机科学的大规模教学观(CS CY)

    在过去的十年中,全国各地的计算机科学(CS)的本科招生人数呈爆炸式增长,因为计算机技能在许多领域中已被证明越来越重要。在这种前所未有的学生需求推动下,加州大学伯...

    奥斯特洛夫斯萌
  • Redis(二):命令集构建及关键属性源码解析

    上一篇文章,我们从框架层面,主要介绍了redis的启动过程,以及主要的命令处理流程逻辑。这些更多的都是些差不多的道理,而要细了解redis,则需要更细节的东西。

    烂猪皮
  • HDUOJ--------1003 Max Sum

    Max Sum Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65536/32768 K (J...

    Gxjun
  • 通用最小曼哈顿网络问题的动态编程方法(CS DS)

    我们研究广义最小曼哈顿网络(GMMN)问题:给定一个由欧几里得平面 中两个点配对组成的集合 ,要求我们找到一个最小长度的几何网络,该网络由轴对齐的线段...

    刘持诚
  • 周练19.11.24

    While playing with geometric figures Alex has accidentally invented a concept of...

    AngelNH
  • C++核心准则ES.43: 避免在表达式中使用无定义的运算次序

    You have no idea what such code does. Portability. Even if it does something sen...

    面向对象思考

扫码关注云+社区

领取腾讯云代金券