神级程序员用Python实现识别手写数字！非常牛X的干货分享！谢谢

文章来源：企鹅号 - 宇宙科技人物

上一篇文章 Python徒手实现识别手写数字—图像的处理中我们讲了图片的处理，将图片经过剪裁，拉伸等操作以后将每一个图片变成了1x10000大小的向量。但是如果只是这样的话，我们每一次运行的时候都需要将他们计算一遍，当图片特别多的时候会消耗大量的时间。在给大家分享之前呢，小编推荐一下一个挺不错的交流宝地，里面都是一群热爱并在学习Python的小伙伴们，大几千了吧，各种各样的人群都有，特别喜欢看到这种大家一起交流解决难题的氛围，群资料也上传了好多，各种大牛解决小白的问题，这个Python群：330637182 欢迎大家进来一起交流讨论，一起进步，尽早掌握这门Python语言。

所以我们需要将这些向量存入一个文件当中，每次先看看图库中有没有新增的图片，如果有新增的图片，那么就将新增的图片变成1x10000向量再存入文件之中，然后从文件中读取全部图片向量即可。当图库中没有新增图片的时候，那么就直接调用文件中的图片向量进行计算就好。这样子算是节省了大量的时间。

所以本文就是从零开始建立一个这样的图片存储管理系统。

实现逻辑

第一次读入图片

我们的图库中拥有一大堆图片，每一张图片上面都是一个手写的数字，图片的名称为[数字内容]_[序号]。比如说一个图片的名称为2_3，代表这一张图片里面的数字是2，并且是“数字是2的第3张图片”。

存在一个cs文件作为我们的建议的图片数据库，名称为Data.cs。

首先我们读取图库中所有图片的名称，保存在fileNames中。然后读取Data.cs中所有数据。

提取出Data.cs的最后一列（一共10002列，第10001列说明该数字是什么数字，第10002列是图片的名称），也就是数据库中存储的所有图片的名称，存储在item中。

将新加入图库的图片名称保存在newFileNames中。如果Data.cs为空，那么就直接令newFileNames = fileNames。也就是说如果数据库中什么也没有，那么图库中所有图片都是新加入的。

如果Data.cs不为空，那么就将item里面的内容与fileNames的内容比较，如果出现了fileNames里面有的名称item中没有，那么就将这些名称放进newFileNames中。如果item里有的名称fileNames中没有，那就不管。

也就是说，我令我们的数据库只进不出。

现在我们得到了新加入图库的图片的名称newFileNames。

将newFileNames中的名称的图片带入上一文中函数GetTrainPicture进行处理，得到了一个nx10001的矩阵，每一行代表一个新加入的图片，前10000列是图片向量，第10001列是该图片的数字，保存在pic中。

将这些图片压入到数据库的后面。

读取之前数据库原有的图片向量，并与pic合并，得到目前拥有的所有的训练图片向量pic。

以上就是本章写的所有内容，下面放出代码来详细解释一下。

代码解析

主文件

我将两节内容分别封装在两个py文件里面，上一篇文章中的图片的切割与处理等所有内容我放在文件OperatePicture里面了，这一节的数据库处理放在了文件OperateDatabase里面。

因为整个代码的逻辑我在上面已经捋过一遍了，所以我不再解释其中的内容，接下来针对每个函数开始讲解。

OperateDatabase代码

从上面的主文件中，我们首先用到了函数NewFiles，主要是对比fileNames和reader这两个文件中图片的名称有什么不同，返回值是新增的图片的名称的列表。下面是代码

当函数运行过后，会把pic矩阵对应的内容直接给续写入CS文件中，相当于数据库操纵的写入，并不会覆盖之前原有的数据。

之后我们需要将数据库原有的一大堆数据reader和新加进来的数据pic合并到pic里面，所以利用Combination函数将两个矩阵合并，代码如下

我可以进行如下操作

发表于: 2018-02-282018-02-28 11:07:29
原文链接：http://kuaibao.qq.com/s/20180228A0ELNJ00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

神级程序员用Python实现识别手写数字！非常牛X的干货分享！谢谢

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐