Vehicle Logo Recognition System Based on Convolutional Neural Networks With a Pretraining Strategy

深度学习思考者

发布于 2018-01-02 17:31:59

8620

发布于 2018-01-02 17:31:59

文章被收录于专栏：深度学习思考者

论文笔记Ⅰ 基于卷积神经网络的车辆标记识别系统

考虑文章中一些语法以及用词还挺好，先记录一下，留下来以后可能用到自己的paper中。

Abstract

由于车辆的标志是一辆车品牌最明显的指标,大多数汽车品牌识别(VMR) 都是基于车辆标志识别的方法。在本文中,提出了一个卷积神经网络(CNN)系统，消除了VMR精确标识检测和分割的要求。另外一个有效预训练策略被用来降低内核训练的高计算成本。数据集包含11500车辆标志图像并且被分为10类,其中10000用来训练和1500用来进行测试。最终的到的平均准确率为99.07%。说明：其中两点是不同于lenet5网络结构的，第一个就是如何从一个复杂的大图像中分割和检测出车标，得到最终输入到卷积神经网络的图像；第二个就是有效的预训练——PCA是如何处理，来提高了准确率以及降低训练样本的时间。

Introduction

引言中指出了paper的两个点： ①a PCA-based pretraining strategy（PCA预处理） ②a coarse segmentation approach（粗分割）

(a)从监控系统中捕获到完整的车辆图像　(b)然后检测到图像的车标部分 (c)和(d)蓝色方框代表之前的精确检测（LPL）获得的区域，在图中明显发现蓝色方框未能准确框住大众车标，本文提出的粗分割其实就是检测到一个更大的区域，如图所示红色方框表示本文方法框住车标部分。说明：①本文选取的车辆都是常见车辆，没有把SUV等一些车辆加入到数据集中，（SUV车标太大） ②车牌定位（License Plate Location，LPL）系统，LPL 系统将输出车牌的角点坐标，根据这四个坐标我们就可以得到其上方含有车标的一个大致区域。其参考文献：

Psyllos A P, Anagnostopoulos C N E, Kayafas E. Vehicle Logo Recognition Using a Sift-Based Enhanced Matching Scheme[J].

Framwork of Logo-based VMR

一粗分割 主要就是上述引言中提到的LPL系统，个人认为这也是区域检测，和region detection有什么区别呢？是否可以使用这个LPL，用于自己数据集的区域检测呢？ 二预训练 文中谈到：The procedure used in (7) and(8) happens to be the same as PCA 那就先回顾一下PCA（主成分分析）：主成分分析与白化是在做深度学习训练时最常见的两种预处理的方法，主成分分析是一种我们用的很多的降维的一种手段，通过PCA降维，我们能够有效的降低数据的维度，加快运算速度。而白化就是为了使得每个特征能有同样的方差，降低相邻像素的相关性。主成分分析（PCA）的原理就是将一个高维向量x,通过一个特殊的特征向量矩阵U，投影到一个低维的向量空间中，表征为一个低维向量y，并且仅仅损失了一些次要信息。也就是说，通过低维表征的向量和特征向量矩阵，可以基本重构出所对应的原始高维向量。 ① yij=wi ⊗ xj 第i个卷积核和第j张训练图片做卷积，为了得到y和x的尺寸一样大小则需要对x进行0填充 ②Y ij = WTi Xj 预训练的目的是找到核函数能够以最小的误差重建出输入图像。

同PCA白化处理差不多

Experimental Results

有三个疑问（忘知道的博友私信我）： 首先按照文中的第二个卷积层的kernel size大小为21*21，卷积核如此大对结果有没有什么影响？还有就是为什么不加个卷积池化层？其次最后的结果提高了1个百分点，PCA预训练到底对结果的正确率影响多大？提高的正确率是不是因为粗分割，把那些错位的车标识别出来了呢？

接下来 就是测试本文模型的鲁棒性，在其它数据集上进行测试