前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >毕业设计:基于CNN的图像分类算法

毕业设计:基于CNN的图像分类算法

作者头像
用户2145057
发布2020-02-18 15:22:41
2.2K0
发布2020-02-18 15:22:41
举报

近年来人工智能越来越火,好像本科毕设不搞人工智能都很丢人似的。但是普通本科生对于这个领域的了解显然很少,基本也就是做做数据搜集、数据标注、工程实现、调调参的工作。

不过这也不错,可以为以后硕士深造埋下伏笔,创造兴趣,打好基础。所以如果不读硕的同学建议不要选这方面的题目。

这次我介绍的毕设题目是:基于卷积神经网络的图像分类算法的工程实现。先说一下电脑配置和环境依赖版本。

代码语言:javascript
复制
联想T480
8G内存
2G显存
MX150显卡(支持GPU加速)
torch 1.3.1
cuda 10.2

我们首先选择LeNet-5这个卷积神经网络的鼻祖来当做baseline。该网络发表于1998年,当年广泛应用于美国银行的数字识别。

当我们跑模型的时候,首先要选择一个简单并通用的网络来当做baseline,即知道这个问题的下限在哪里。这样方便以后我们选择更复杂更通用的模型来持续优化效果。

数据集是这样的。近五千张船舶图片。船舶种类丰富,包括帆船、渔船、木舟、游轮、货船、工作船、军舰等。拍摄角度包括航拍、红外图像、可见光图像、船上拍摄、船舶加海天背景等。其中军舰图像占50%,其他图像占50%。该毕设问题即解决,区分军舰和其他船舶的问题。

图像大致如下:

others.4.jpg

others.604.jpg

warship.214.jpg

transport.21.jpg

working.23.jpg

small.378.jpg

这是个二分类的问题。

接下来介绍LeNet-5的网络结构,如图。

LeNet-5

这里先介绍一个公式:

代码语言:javascript
复制
N = (W - F + 2P)/ S   +  1
W 输入矩阵大小
F  卷积层、池化层的核大小
P  填充大小
S  移动步长
N  输出矩阵大小

先贴上该网络的pytorch的代码实现。

代码语言:javascript
复制
class LeNet(BasicModule):
    def __init__(self, num_classes=2):

        super(LeNet, self).__init__()
        self.model_name = 'LeNet'

        self.conv1 = nn.Conv2d(3, 6, 5)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16 * 53 * 53, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, num_classes)

    def forward(self, x):
        x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))
        x = F.max_pool2d(F.relu(self.conv2(x)), 2)
        x = x.view(x.size()[0], -1)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

在原始论文中,网络结构如此。卷积层1 + 池化层2 + 卷积层3 + 池化层4 + 全连接层5、6、7。一共七层网络。原始论文中,图片大小为33232,即长宽为32的三通道图片。

而在本实验中,因为原始图片本身很大,在这里我统一设置成了3224224的图片。因此在网络中,最后一个池化层和全连接成对接的时候,需要注意大小

原始论文为:

代码语言:javascript
复制
self.fc1 = nn.Linear(16 * 5 * 5, 120)

我改为了:

代码语言:javascript
复制
self.fc1 = nn.Linear(16 * 53 * 53, 120)

可根据上面的公式自行计算。

根据不同参数,我进行了九次实验,在验证集上的表现如下:

Figure_1.png

有两条线明显效果很差,我们把它们排除,再看一下其他七次实现的情况。

Figure_2.png

从这里可以清楚的看到七次实验,验证集上的变化情况。

一般调参,重要的参数无非是batch_size、学习率。从该曲线可以看出,当batch_size为32,学习率为0.001时,正确率最高。

随后在测试集上表现如下:

image.png

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档