专栏首页CSDN博客基于PaddlePaddle实现的目标检测模型SSD
原创

基于PaddlePaddle实现的目标检测模型SSD

原文博客:Doi技术团队 链接地址:https://blog.doiduoyi.com/authors/1584446358138 初心:记录优秀的Doi技术团队学习经历 本文链接:基于PaddlePaddle实现的目标检测模型SSD

PaddlePaddle-SSD

SSD,全称Single Shot MultiBox Detector,是Wei Liu在ECCV 2016上提出的一种目标检测算法,截至目前是主要的检测框架之一,相比Faster RCNN有明显的速度优势,相比YOLO V1又有明显的mAP优势。本开源是基于PaddlePaddle实现的SSD,参考了PaddlePaddle下的models的ssd ,包括MobileNetSSD,MobileNetV2SSD,VGGSSD,ResNetSSD。使用的是VOC格式数据集,同时提供了预训练模型和VOC数据的预测模型。

快速使用

  1. 将图像数据集存放在dataset/images目录下,将标注数据存放在dataset/annotations目录下。
  2. 执行create_data_list.py程序生成数据列表。
  3. 在下面的表格中下载预训练模型,解压到pretrained目录下。
  4. 修改config.py参数,其中最重要的是class_numuse_modelpretrained_modelclass_num是分类数量加上背景一类。use_model是指使用的模型,分别有resnet_ssd、mobilenet_v2_ssd、mobilenet_v1_ssd、vgg_ssd四种选择。pretrained_model是预训练模型的路径。
  5. 执行train.py程序开始训练,每训练一轮都会更新保存的模型,训练过程中可以随时停止训练。
  6. 执行infer.py预测图像,预测模型的路径在config.py配置文件中查找。

模型下载

模型名称

所用数据集

预训练模型

预测模型

VGG_SSD网络的VOC预训练模型

pascalvoc

ResNet_SSD网络的VOC预训练模型

pascalvoc

MobileNet_V1_SSD网络的VOC预训练模型

pascalvoc

MobileNet_V2_SSD网络的VOC预训练模型

pascalvoc

SSD模型介绍

SSD全称Single Shot MultiBox Detector,是2016年提出的一种one-stage目标检测算法,相比two-stage目标检测算法的Faster R-CNN来说,其特点是一步到位,速度相对较快。

SSD有以下几个特点:

  1. 将bounding box的输出空间离散化为一系列不同纵横比的default box, 并能够调整box更好地匹配物体的形状。
  2. 将多个不同分辨率的feature map上的预测结果结合,解决了物体不同大小的问题。
  3. 模型结构简单,SSD模型把全部的计算都放在一个网络模型上,大体上可以分为两部分,图像特征提取网络和分类检测网络。

以下是SSD的结构图,在原论文中主干网络为VGG16,后面接着6个卷积层,用于提取出6个不同尺度的feature map,这样可以提取出不同大小的bbox,以检测到不同大小的目标对象。其中主干网络可以替换成其他的卷积网络,所以SSD也产生了几种衍生版,例如MobileNetV2 SSD、ResNet50 SSD等等。生成的6个feature map都输入到分类检测网络中,分类检测网络分别对这6个feature map依次预测的,这个分类检测网络可以使用PaddlePaddle的fluid.layers.multi_box_head()接口实现。

在这里插入图片描述

针对6个feature map的更详细图如下。

以下是按照原论文的模型参数搭建的网络模型,在各个衍生版参数设置也有所变动。如下的主干网络是使用VGG16,使用PaddlePaddle实现的代码片段如下。

conv1 = self.conv_block(self.img, 64, 2)
conv2 = self.conv_block(conv1, 128, 2)
conv3 = self.conv_block(conv2, 256, 3)

6个feature map的实现代码如下,按照论文中的,feature map1的shape为38*38*512,feature map2的shape为19*19*1024,feature map3的shape为10*10*512,feature map4的shape为5*5*256,feature map5的shape为3*3*256,feature map6的shape为1*1*256

# 38x38
module11 = self.conv_bn(conv3, 3, 512, 1, 1)
tmp = self.conv_block(module11, 1024, 5)
# 19x19
module13 = fluid.layers.conv2d(tmp, 1024, 1)
# 10x10
module14 = self.extra_block(module13, 256, 512, 1)
# 5x5
module15 = self.extra_block(module14, 128, 256, 1)
# 3x3
module16 = self.extra_block(module15, 128, 256, 1)
# 1x1
module17 = fluid.layers.pool2d(input=module16, pool_type='avg', global_pooling=True)

最后这个就是分类检测模型,在PaddlePaddle上只需一个接口即可完成,在参数inputs参数中把6个feature map的输出都作为参数输入。按照论文中设置先验框的长度和base_size的最小比率min_ratio为20%,先验框的长度和base_size的最大比率max_ratio为90%,其中base_size是输入图片的大小。

mbox_locs, mbox_confs, box, box_var = fluid.layers.multi_box_head(
    inputs=[module11, module13, module14, module15, module16, module17],
    image=self.img,
    num_classes=self.num_classes,
    min_ratio=20,
    max_ratio=90,
    min_sizes=[60.0, 105.0, 150.0, 195.0, 240.0, 285.0],
    max_sizes=[[], 150.0, 195.0, 240.0, 285.0, 300.0],
    aspect_ratios=[[2.], [2., 3.], [2., 3.], [2., 3.], [2., 3.], [2., 3.]],
    base_size=self.img_shape[2],
    offset=0.5,
    flip=True)

min_sizesmax_sizes分别是每层提取的先验框的最小长度和最大长度,当输入个数len(inputs) > 2,并且min_sizemax_size为None时,通过baze_size, min_ratiomax_ratio来计算出min_sizemax_size,计算公式如下:

min_sizes = []
max_sizes = []
step = int(math.floor(((max_ratio - min_ratio)) / (num_layer - 2)))
for ratio in six.moves.range(min_ratio, max_ratio + 1, step):
    min_sizes.append(base_size * ratio / 100.)
    max_sizes.append(base_size * (ratio + step) / 100.)
    min_sizes = [base_size * .10] + min_sizes
    max_sizes = [base_size * .20] + max_sizes

同样PaddlePaddle也提供了SSD的损失函数,使用的接口时fluid.layers.ssd_loss()。通过给定位置偏移预测,置信度预测,候选框和真实框标签,返回的损失是或回归损失和分类损失的加权和。

loss = fluid.layers.ssd_loss(locs, confs, gt_box, gt_label, box, box_var)
loss = fluid.layers.reduce_sum(loss)

代码详解

本项目中最重要的是config.py配置文件,这里包含了所有的训练配置信息,开发者在使用本项目训练自己的数据集时,一定要留意该配置是否符合当前的数据集和训练环境,以下笔者针对几个重要的参数进行解析。

  • image_shape输入训练的现状,默认是3, 300, 300,也可以设置大小为512*512
  • batch_size训练数据的batch大小,根据自己的硬件环境修改,充分使用硬件资源。
  • epoc_num训练的轮数,每一轮都会保存预测模型和训练的参数。
  • lr初始化学习率。
  • class_num分类的数量,通常还要加上背景一类,例如VOC类别是20类,那该值为21。
  • use_model使用的SSD的模型,分别有resnet_ssd、mobilenet_v2_ssd、mobilenet_v1_ssd、vgg_ssd,更加自己的需求选择不同的模型,如何开发者是希望嵌入到移动设备的,那么可以考虑mobilenet_v2_ssd、mobilenet_v1_ssd。如何开发者希望有更好的识别准确率,可以使用resnet_ssd。
  • label_file分类的标签对应的名称,由create_data_list.py生成,通常不需要修改。
  • train_list训练数据的数据列表,每一行数据对应的是他们的图片和标注文件的路径,,由create_data_list.py生成,通常不需要修改。
  • test_list测试数据的数据列表,每一行数据对应的是他们的图片和标注文件的路径,,由create_data_list.py生成,通常不需要修改。
  • persistables_model_path训练过程中保存的模型参数,可以用于再次训练,恢复之前的训练。
  • infer_model_path训练过程中保存的预测模型,可以用于之后的预测图像,不需要再依赖模型代码。
  • pretrained_model预训练模型路径,预训练模型文件在上面模型下载中下载,需要指定解压的文件夹路径。
  • use_gpu是否使用GPU进行训练。
  • use_multiprocess是否使用多线程读取数据,在Windows系统下不能使用,否则会出错。

create_data_list.py代码是生成数据类别和数据标签的,本项目目前仅支持VOC标注格式的数据。如果开发者把数据集分为imagesannotations,并且存放在dataset/imagesdataset/annotations目录下,还有他们的文件名是一样的,那么这个代码是不需要修改的。如果开发者的数据格式有差别,请修改代码生成如下的数据列表,每一行第一个为图像的路径,第二个是VOC格式的标注文件,他们中间有制表符\t分开。

dataset/images/00001.jpg	dataset/annotations/00001.xml
dataset/images/00002.jpg	dataset/annotations/00002.xml

train.py为训练代码,基本上的训练配置都在config.py

infer.py为预测代码,这代码可以单独运行,不再需要网络模型代码。预测是可以在图像上画框和类别名称并显示。

  • label_file是标签文件,由create_data_list.py生成,在画框的时候显示类别名称。
  • score_threshold为预测得分阈值,小于该阈值的结果不显示。
  • infer_model_path指定预测模型的路径。

utils/reader.py是将图像和标签数据生成训练和测试数据的生成器,图像预处理和生成SSD模型的预选框也会在这个过程完成。但是生成SSD模型的预选框是调用了utils/image_util.py完成,这个代码包含了生成预选框和数据增强,增强方式请仔细阅读该代码。

四种模型的代码存放在nets文件夹下,包括mobilenet_v1_ssd.pymobilenet_v2_ssd.pyvgg_ssd.pyresnet_ssd.py模型,模型代码介绍请查看上面的SSD模型介绍

源码开源地址: https://github.com/yeyupiaoling/PaddlePaddle-SSD

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 7.SSD目标检测之一:运行SSD模型

    需要在跟踪模型的前面把检测模型加进去,传统使用一些背景建模和轨迹建模的方式来做,对于动摄像头以及复杂背景的适应性都比较差,所以考虑用深度学习的方法来做。我以前也...

    和蔼的zhxing
  • 专栏 | 有趣!用计算机视觉技术与PaddlePaddle打造AI控烟项目

    百度工程师用 PaddlePaddle 训练出一套模型,能够对吸烟人群进行识别和适当提示。当摄像头捕捉到正在吸烟的同学,就会投射到大屏幕上。图为李彦宏和某个员工...

    机器之心
  • 有趣!用计算机视觉技术与PaddlePaddle打造AI控烟项目

    百度工程师用 PaddlePaddle 训练出一套模型,能够对吸烟人群进行识别和适当提示。当摄像头捕捉到正在吸烟的同学,就会投射到大屏幕上。图为李彦宏和某个员工...

    IT派
  • 目标检测模型SSD的详细解释

    目标检测由两个独立的任务组成,即分类和定位。R-CNN 系列目标检测器由两个阶段组成,分别是区域提议网络和分类和框细化头。然而,这种2阶段的检测模型已经基本被单...

    deephub
  • 《我的PaddlePaddle学习之路》笔记九——使用VOC数据集的实现目标检测

    目标检测的使用范围很广,比如我们使用相机拍照时,要正确检测人脸的位置,从而做进一步处理,比如美颜等等。在目标检测的深度学习领域上,从2014年到2016年,先后...

    夜雨飘零
  • 目标检测-基于Pytorch实现Yolov3(1)- 搭建模型

    原文地址:https://www.cnblogs.com/jacklu/p/9853599.html

    用户7043923
  • 强烈推荐 | 基于飞桨的五大目标检测模型实战详解

    机器视觉领域的核心问题之一就是目标检测(object detection),它的任务是找出图像当中所有感兴趣的目标(物体),确定其位置和大小。对于人类来说,目标...

    用户1386409
  • 【目标检测】SSD目标检测

    场景文字识别 目标检测任务的目标是给定一张图像或是视频帧,让计算机找出其中所有目标的位置,并给出每个目标的具体类别。对于人类来说,目标检测是一个非常简单的任务。...

    用户1386409
  • 强力推荐!飞桨产业级PaddleCV最新全景图

    导读:PaddleCV是飞桨开源的产业级CV工具与预训练模型集,提供了依托于百度实际产品打磨,能够极大地方便 CV 研究者和工程师快速应用。使用者可以使用Pad...

    用户1386409
  • PaddlePaddle升级解读 | 十余行代码完成迁移学习,PaddleHub实战篇

    迁移学习 (Transfer Learning) 是属于深度学习的一个子研究领域,该研究领域的目标在于利用数据、任务、或模型之间的相似性,将在旧领域学习过的知识...

    用户1386409
  • 十余行代码完成迁移学习,百度PaddleHub实战解读

    迁移学习 (Transfer Learning) 是属于深度学习的一个子研究领域,该研究领域的目标在于利用数据、任务、或模型之间的相似性,将在旧领域学习过的知识...

    机器之心
  • 计算机视觉八大任务全概述:PaddlePaddle工程师详解热门视觉模型

    来自百度的深度学习工程师,围绕计算机视觉领域的八大任务,包括:图像分类、目标检测、图像语义分割、场景文字识别、图像生成、人体关键点检测、视频分类、度量学习等,进...

    量子位
  • 口罩人脸检测与分类开源代码汇总

    最近因为疫情影响,口罩人脸检测与分类突然火了起来,首先是百度开源了相关模型,然后腾讯和阿里也分别称在云服务中提供了相关能力。

    CV君
  • YOLOV3 基于OpenCV DNN 的目标检测实现

    这里主要是对 基于 YOLOV3 和 OpenCV的目标检测(PythonC++)[译] Python 完整实现的整理.

    AIHGF
  • 超越YOLOv4!PP-YOLO:更快更好的目标检测网络

    Tricks大法好!PP-YOLO可达45.2% mAP,速度高达72.9 FPS!FPS和mAP均超越YOLOv4,FPS也远超过EfficientDet!

    Amusi
  • 深度学习在自动驾驶感知领域的应用

    本次直播课程是由深度学习资深研究者-杨阳博士从百度Apollo自动驾驶感知技术出发,讲解环境感知中深度学习的实用性与高效性。

    AI科技大本营
  • 目标检测 - 基于 SSD: Single Shot MultiBox Detector 的人体上下半身检测

    这里主要是通过将训练数据转换成 Pascal VOC 数据集格式来实现 SSD 检测人体上下半身.

    AIHGF
  • 计算机视觉八大任务全概述:PaddlePaddle工程师详解热门视觉模型

    百度深度学习工程师,围绕计算机视觉领域的八大任务,包括:图像分类、目标检测、图像语义分割、场景文字识别、图像生成、人体关键点检测、视频分类、度量学习等,进行了较...

    用户1386409
  • 人体姿态识别有了PaddlePaddle实现,它是否会成为下一个AI宠儿?

    随着深度学习技术的发展,人体骨骼关键点的检测效果也在不断提升,且被广泛应用于计算机视觉相关领域,成为许多计算机视觉任务的基础,包括安防,新零售,动作捕捉,人机交...

    用户1386409

扫码关注云+社区

领取腾讯云代金券