前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >通用目标检测YOLO V3

通用目标检测YOLO V3

原创
作者头像
算法发
修改2020-08-19 21:15:53
7400
修改2020-08-19 21:15:53
举报
文章被收录于专栏:播放刘德华的歌

Yolov3演示地址

演示视频:https://youtu.be/MPU2HistivI

演示视频:

视频内容

YOLOv3非常快速和准确。 在mAP值为0.5 IOU时,YOLOv3与Focal Loss相当,但速度约快4倍。 此外,您只需更改模型的大小即可轻松在速度和精度之间进行权衡,而无需重新训练!

我们使用完全不同的方法。 我们将单个神经网络应用于完整图像。 该网络将图像划分为多个区域,并预测每个区域的边界框和概率。 这些边界框由预测的概率加权。

与基于分类器的系统相比,我们的模型具有多个优势。 它在测试时查看整个图像,因此其预测由图像中的全局上下文提供。 它还像R-CNN这样的系统需要一个网络评估来进行预测,而R-CNN单个图像需要数千个评估。 这使其速度非常快,比R-CNN快1000倍以上,比Fast R-CNN快100倍。 有关完整系统的更多详细信息,请参见我们的论文。

YOLOv3使用一些技巧来改进训练并提高性能,包括:多尺度预测,更好的主干分类器等等。 完整的细节在我们的

版本3有什么新功能?

论文地址:https://pjreddie.com/media/files/papers/YOLOv3.pdf

bounding Box 预测

遵循YOLO9000,我们的系统使用尺寸簇作为锚定框来预测边界框[15]。 网络为每个边界框tx,ty,tw,th预测4个坐标。 如果单元格从图像的左上角偏移了(cx,cy)并且先验边界框的宽度和高度为pw,ph,则预测对应于:

2.2分类预测

每个框使用多标签分类预测边界框可能包含的类。 我们不使用softmax,因为我们发现它不需要良好的性能,而是仅使用独立的逻辑分类器。 在训练过程中,我们使用二元交叉熵损失进行类别预测。

2.3跨尺度的预测

YOLOv3预测3种不同比例的盒子。 我们的系统使用类似的概念从金字塔特征网络中提取特征,以金字塔网络为特征[8]。 从基本特征提取器中,我们添加了几个卷积层。 这些中的最后一个预测3D张量编码边界框,客观性和类预测。 在我们用COCO [10]进行的实验中,我们预测每个尺度上有3个盒子,因此对于4个边界框偏移,1个客观性预测和80个类预测,张量为N×N×[3 *(4 + 1 + 80)]。

接下来,我们从先前的2层中获取特征图,并将其上采样2倍。 我们还从网络的早期获取了一个特征图,并使用级联将其与我们的上采样特征合并。 这种方法使我们能够从上采样的特征中获取更有意义的语义信息,并从较早的特征图中获得更细粒度的信息。 然后,我们再添加一些卷积层以处理此组合特征图,并最终预测相似的张量,尽管现在的大小是原来的两倍。

我们再执行一次相同的设计,以预测最终比例的盒子。 因此,我们对第3级的预测受益于所有先前的计算以及网络早期的细粒度功能。

我们仍然使用k-means聚类来确定边界框先验。 我们只是随意选择了9个聚类和3个比例,然后将这些聚类在各个比例之间平均分配。 在COCO数据集上,9个聚类为:(10×13),(16×30),(33×23),(30×61),(62×45),(59×119),(116×90) ,(156×198),(373×326)。

2.4 特征提取

我们使用一个新的网络来执行特征提取。 我们的新网络是YOLOv2,Darknet-19中使用的网络与新的残留网络内容之间的混合方法。 我们的网络使用了连续的3×3和1×1卷积层,但现在也具有一些快捷连接,并且明显更大。 它有53个卷积层,所以我们称它为....等待它... Darknet-53!

每个网络都经过相同设置的训练,并以256×256的单作物精度进行测试。 运行时间是在Titan X上以256×256进行测量的。因此Darknet-53与最新的分类器具有同等的性能,但浮点运算更少,速度更高。 Darknet-53优于ResNet-101,并且快1.5倍。 Darknet-53具有与ResNet-152相似的性能,并且快2倍。

Darknet-53还实现了每秒最高的测量浮点运算。 这意味着网络结构可以更好地利用GPU,从而使其评估效率更高,从而速度更快。 这主要是因为ResNets层太多了,效率也不高。

我们仍然会训练完整的图像,而不会进行任何艰苦的负面挖掘工作。 我们使用多尺度培训,大量数据扩充,批处理规范化以及所有标准内容。 我们使用Darknet神经网络框架进行培训和测试[14]。

2.5 训练

我们仍然会训练完整的图像,而不会进行任何艰苦的负面挖掘工作。 我们使用多尺度培训,大量数据扩充,批处理规范化以及所有标准内容。 我们使用Darknet神经网络框架进行培训和测试[14]。

过去,YOLO一直在努力处理小物件。 但是,现在我们看到了这种趋势的逆转。 通过新的多尺度预测,我们看到YOLOv3具有相对较高的APS性能。 但是,它在中型和大型对象上的性能相对较差。 要深入了解这一点,还需要进行更多调查。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
作者已关闭评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
文字识别
文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档