首页
学习
活动
专区
圈层
工具
发布
37 篇文章
1
Linux音频驱动-ASOC(ALSA System on Chip)
2
LPDDR5: A New Clocking Scheme 提高性能
3
FPGA 控制 RGMII 接口 PHY芯片基础
4
DDR3篇第三讲、DDR3读写测试项目分析
5
PHY(Physical Layer,PHY)通俗理
6
MIPI联盟已完成车载的Long-Reach SerDes PHY工业标准 A-PHY v1.0
7
【三】Bluetooth 技术||链路层七种状态与空口报文设计(Core_v5.2)
8
【RL-TCPnet网络教程】第5章 PHY芯片和STM32的MAC基础知识
9
FPGA和USB3.0通信-USB3.0 PHY介绍
10
USB技术浅析
11
优秀的 Verilog/FPGA开源项目介绍(二)-RISC-V
12
优秀的 Verilog/FPGA开源项目介绍(十六)- 数字频率合成器DDS
13
想学习高速ADC/DAC/SDR项目这个项目你不得不理解
14
优秀的 Verilog/FPGA开源项目介绍(九)- DP(增改版)
15
优秀的 Verilog/FPGA开源项目介绍(十三)- I2C
16
高速串行通信常用的编码方式-8b/10b编码/解码
17
SoC设计之PPA
18
SoC设计之功耗--开篇
19
开源SOC的设计与实践
20
SoC设计之功耗 – RTL/netlist功耗计算
21
转置型FIR设计
22
SSD目标检测系统系统结构网络训练
23
P2P接口Booth乘法器设计描述原理代码实现
24
流水线式p2p接口的分析与实现
25
流水线乘加树需求设计规划代码实现
26
分时复用的移位相加乘法器
27
Verilog实现全并行比较算法
28
全并行流水线移位相加乘法器
29
ROM乘法器基本算法单个ROM乘法器分时复用ROM乘法器
30
Flash中XIP模式
31
cordic的FPGA实现(五)、除法实现
32
cordic的FPGA实现(三)、乘法器实现
33
cordic的FPGA实现(三)、sin、cos函数运算与源码分析
34
FPGA卡拉ok系统--Biquad filter
35
音频总线I2S协议
36
脉冲压缩处理
37
虚拟地址(VA,virtual address)到物理地址(PA, ,physical address)的转换
清单首页SoC文章详情

SSD目标检测系统系统结构网络训练

首发于个人博客

系统结构

system.png

SSD识别系统也是一种单步物体识别系统,即将提取物体位置和判断物体类别融合在一起进行,其最主要的特点是识别器用于判断物体的特征不仅仅来自于神经网络的输出,还来自于神经网络的中间结果。该系统分为以下几个部分:

  • 神经网络部分:用作特征提取器,提取图像特征
  • 识别器:根据神经网络提取的特征,生成包含物品位置和类别信息的候选框(使用卷积实现)
  • 后处理:对识别器提取出的候选框进行解码和筛选(NMS),输出最终的候选框

神经网络

network.PNG

该系统的网络结构如上图所示基本网络为VGG-16网络,VGG-16网络由一系列3x3卷积顺序连接构成,在conv5_3层卷积之前,共有4个stride=2的最大值池化,因此该层的输出的长和宽比原始输入缩小16倍,在SSD300网络中输入图像的尺寸被归一化到300x300,因此该层的输出长和宽为

,channel为512,即基础网络VGG-16的输出尺寸为512x19x19。

在基础网络之后,还有如下的网络结构:

名称

输入

kernel尺寸

stride

padding

输出

是否输出

conv6

512x19x19

1024x512x3x3

1

1

1024x19x19

N

conv7

1024x19x19

1024x1024x1x1

1

0

1024x19x19

Y

conv8_1

1024x10x10

256x1024x1x1

1

0

256x10x10

N

conv8_2

256x10x10

512x256x3x3

2

1

512x10x10

Y

conv9_1

512x10x10

128x512x1x1

1

0

128x10x10

N

conv9_2

128x10x10

256x128x3x3

2

1

256x5x5

Y

conv10_1

256x5x5

128x256x1x1

1

0

128x5x5

N

conv10_2

128x5x5

256x128x3x3

1

0

256x3x3

Y

conv11_1

256x3x3

128x256x1x1

1

0

128x3x3

N

conv11_2

128x3x3

256x128x3x3

1

0

256x1x1

Y

其中,是否输出一栏标为Y的均将其输出送到识别器,即最终识别器接受不同大小的feature map共(5+1)=6个(5个额外的输出层和1个基础网络输出),分别为10x10,5x5,3x3,1x1和两个19x19,

识别器

识别器使用卷积层构成,其卷积尺寸为

,其中box_num为feature map上一个格点所产生的识别框数量,class_num为类别数量(包括背景类),具体如下所示:

default_box.PNG

图中是一个4x4的feature map,共

个格点,每个格点上有3个候选框,即box_num=3,类别信息中共有p个数据,即共有p类物品以供判断(p中含有背景类),class_num=p。另外的4个数据为loc后的位置微调信息。一个

的feature map经过识别器处理后,变为

的Tensor,共包含

个候选框。

后处理

第一步后处理是解析候选框中的数据,每一个候选框由4+class_num个数据构成:4个位置信息x,y,w,h和class_num个类别信息。解析方式与anchor box几乎相同,如下所示:

其中,

分别是识别出的物品的中心点的宽度坐标,高度坐标和物品的高度和宽度。

分别是输入图像的宽度和高度,

为候选框所在格点的坐标,取值范围分别为0~

和0~

,如上图中有

为候选框所在的feature map的宽度和高度,如上图有

分别是对应default box的默认归一化宽高。对于类别信息,取其中最大的即可:

第二步后处理是使用NMS(非极大值抑制)对候选框进行筛选:当两个候选框的IOU超过一个阈值时,丢弃置信度conf低的候选框。

网络训练

网络训练分为了两个部分:

  • 建立label:一般的物体检测的label为物体的位置信息,为了实现训练需要将label转移到default box上
  • 代价函数:反向传播的起点,标记训练任务

标签建立

default box生成

在每个feature map的格点上,default box的面积是一个定值,长宽比为几种可选的值,如下所示:

其中,

为第k个feature map的归一化尺寸参数(实际尺寸与图片尺寸的比),

,即k=1时(

最大的feature map),尺寸参数为图片尺寸的0.2倍,k=m时(

最小的feature map),尺寸参数为图片尺寸的0.9倍。

分别为第k个feature map下不同长宽比的default box的默认归一化宽和高。除了以上所述4个default box之外,每个feature map的格点default box还有两个长宽比为1的框,其尺寸系数分别是:

综上所述,每个feature map的格点共对应6个default box

label匹配

对一个default box进行label匹配时,遍历这张输入图片的物体信息label,若该物品和这个default box的IOU超过某个阈值时,认定这个default box用于识别这个物体,按如下建立label:

  • 对于位置信息:根据以上后处理所示的公式进行反处理,则可以获得位置信息的label
  • 对于类别信息:将物品类别对应位置的置信度置1,其他置0

按以上方法遍历所有default box,即生成了对于一张输入数据的label

代价函数

代价函数由两个部分构成,分别对于定位准度和分类精度:

其中x为标记信息,

,当第i个default box被标记为属于类别p的第j个物体时,

,否则该标记为0。代价函数分为两个部分,第一个部分是分类精度,使用softmax损失函数,如下所示。

指该default box的在label中不属于背景(p>0),反之

。c为网络输出中置信度有关的向量,

为SSD输出的第i个default box中属于类别p的置信度。

第二个部分为定位准确度,使用L1下的smooth函数作为代价函数:

其他训练细节

正反例

保证正例:反例=1:3,由于一般正例远远少于反例,所以保留所有正例,并根据正例三倍的数量选择反例,选择的标准为置信度:即选择

高的反例。

图像预处理

输入图片随机选择进行以下处理:

  • 输入原始图像
  • 截取与物品IOU大于0.3,0.5,0.7或0.9的部分
  • 随机截取图片部分

进行完以上随机选择后,随机对处理后的图片做翻转处理

下一篇
举报
领券