使用机器学习模型快速进行图像分类识别

零、前言

在上一篇,我们介绍了使用sklearn库快速创建一个用于预测房价的机器学习回归模型,并通过平均绝对误差、均方差和R3分数有效地评估了这个预测模型的效果。

在本篇,我们继续介绍借助sklearn库创建用于进行分类预测的机器学习模型。

对分类问题进行预测同样属于监督学习的范畴,通过对已知数据的类别的标记,来实现对未知数据的类别的预测和判定。

常见的应用领域包括:垃圾邮件识别、垃圾短信识别、图像分类识别等等。

常见的应用算法则有:SVM(支持向量机)、K紧邻、朴素贝叶斯、随机森林等等。

下面,我们就通过Digits手写数字集来进行机器学习分类模型的介绍。

一、初探手写数字数据集

本篇选用的手写数字数据集同样来自有sklearn.datasets子模块,其由著名的UCI 机器学习库提供:

该数据集由1797个8x8图像组成。每个图像,都是手写数字。

就像上一篇导入波士顿数据集一样,我们从sklearn模块中进行导入:

接着查看数据集中包含的子方法:

与波士顿数据集类似,其提供了images、target_names、target、data、DESCR等方法。其中:

  • images:表示图像的原始数组;
  • target_names:表示图像分类中所有的数字;
  • target:表示图像数组对应的数字名称;
  • data:表示图像的一维特征数组;
  • DESCR:表示数据集描述信息;

从这两个数据集可以发现,sklearn的API还是挺统一和规范的,很方便进行学习和调用。接下来,我们看看每个方法中到底都是些什么。

通过查看images的形状,以及已知的图像为8×8的形状,我们可以得知,这个数据集中有1797个图像。看看其中一个图像的内容:

这就是一个图像转换成数组之后的形式,我们怎么知道这是个什么图像呢?可以借助于matplotlib模块来将图像数组还原为图像。

可能之前搭建环境的时候没有安装这个模块,我们先来安装一下:

然后引入matplotlib模块,调用imshow()方法:

可以发现,iamges中的第一个图像似乎数字0。我们继续看下面的内容。

data的target_name信息显示,我们的数据代表的数字分类类别为0到9。

数据的目标值与数据集时匹配的,最后再看看data的data:

数据量还是1797条,但是形状已经从二维的(8, 8)变成了一维的64,我们从一个具体的数据中看看:

可以发现,data.data中的数组将之前8*8的数组合成为了一个数组,这样才能方便对图像的数组运用算法进行训练和计算。那又如何将一维的图像数组还原为图像呢,通过是上面的方法,但是需要先将一维数组转换一下形状:

我们同样将数据集的特征和目标转换为pandas的DataFrame,方便各位同学理解数据集的形状:

二、分割训练测试集

同样使用sklearn提供的train_test_split方法来对数据集进行训练集和测试集的分割:

三、创建分类模型

在此,我们同样选择随机森林算法 作为机器学习模型估计器的基本算法来创建一个机器学习分类器并进行训练:

四、评估模型

在训练完成模型之后,我们同样可以使用模型的predict()方法获取到测试集的预测结果:

在面对回归模型的时候,我们可以使用平均绝对误差、均方差等方法对模型的效果进行评估,而在分类算法模型中,我们使用其他的方法进行模型效果的评估,比如:精度分类评分、召回评分等。而这些方法,也都在sklearn模块的metrics子模块下。

我们来对分类模型进行效果评估:

两种评估方法的最佳结果值都是1,看起来我们的模型准确度还是蛮高的,大家可以尝试其他的算法构建分类模型。

欢迎留言交流讨论:)

下一篇,我们将介绍构建一个聚类预测型。

原文发布于微信公众号 - 州的先生(zmister2016)

原文发表时间:2018-03-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

Tensorflow入门-白话mnist手写数字识别

文章目录 mnist数据集 简介 图片和标签 One-hot编码(独热编码) 神经网络的重要概念 输入(x)输出(y)、标签(label) 损失函数(loss ...

46710
来自专栏有趣的Python

6- 深度学习之神经网络核心原理与算法-学习率

1012
来自专栏ml

神经网络模型之AlexNet的一些总结

说明: 这个属于个人的一些理解,有错误的地方,还希望给予教育哈~ 此处以caffe官方提供的AlexNet为例. 目录: 1.背景 2.框架介绍 3.步骤详细说...

3255
来自专栏YoungGy

机器翻译之Facebook的CNN与Google的Attention

传统的seq2seq facebook的cnn 结构 特点 position embedding 卷积的引入 GLU控制信息的流动 attention goog...

3419
来自专栏人工智能LeadAI

黑猿大叔-译文 | TensorFlow实现Batch Normalization

原文:Implementing Batch Normalization in Tensorflow(https://r2rt.com/implementing-...

4868
来自专栏计算机视觉战队

在单机上快速、精确的100000类别的检测

今天带来的这篇推送,估计您有读过或试验过,但是为了让更多的科研学者知道这么“牛”的内容知识,接下来就开始说说今天的主题——1000000类的快速精确检测。 注:...

2866
来自专栏fangyangcoder

Andrew Ng机器学习课程笔记(二)之逻辑回归

http://www.cnblogs.com/fydeblog/p/7364636.html

1103
来自专栏瓜大三哥

竞争型神经网络续1

1.竞争神经网络函数 1.1创建函数 1.1.1 newc函数 newc函数用于创建一个竞争层,这是一个旧版本的函数,现在用competlayer函数代替。函数...

35010
来自专栏深度学习自然语言处理

神经网络基础模型--Logistic Regression的理论和实践

1 概述 Logistic Regression 即 逻辑回归,属于监督学习,输入x(特征数据),输出为0或1(显然是二分类)。为什么要用逻辑回归讲神经...

35515
来自专栏CVer

风格迁移三部曲(一)之普通风格迁移

风格迁移(Style Transfer)是一个很有意思的任务,通过风格迁移可以使一张图片保持本身内容大致不变的情况下呈现出另外一张图片的风格。风格迁移三步曲将绍...

1300

扫码关注云+社区