快速使用Ｔｅｎｓｏｒｆｌｏｗ读取 7 万数据集！

文章来源：企鹅号 - 影料农

欢迎各位再次来到这里听小编解说！小编已经把最精彩的文章已经写在了下边，希望大家能耐心的把文章看完。你们的阅读就是我坚持创作的动力！麻烦你点点关注和评论！小编会永远记在心里的！！！

作者　｜　郭俊麟

责编　｜　胡巍巍

Ｂｒｉｅｆ　概述

并被分成六万张训练集与一万张测试集，其中训练集里面，又有五千张图片被用来作为验证使用，该数据库是公认图像处理的　＂Ｈｅｌｌｏ　Ｗｏｒｌｄ＂　入门级别库，在此之前已经有数不清的研究，围绕着这个模型展开。

不过初次看到这个库之后，肯定是对其长相产生许多的疑问，我们从外观上既看不到图片本身，也看不到任何的索引线索，他就是四个压缩包分别名称如下图：

对数据库以此方法打包的理由需要从计算机对数据的运算过程和内存开始说起，人类直观的图像是眼睛接收的光信号，这些不同颜色的光用数据的方式储存起来后有两种主要的格式与其对应的格式内容：

．ｊｐｅｇ：　ｈｅｉｇｈｔ，　ｗｉｄｔｈ，　ｃｈａｎｎｅｌｓ；

．ｐｎｇ　：　ｈｅｉｇｈｔ，　ｗｉｄｔｈ，　ｃｈａｎｎｅｌｓ，　ａｌｐｈａ。

（注意：　．ｐｎｇ　储存格式的图片含有透明度的信息，在处理图片的时候可以舍弃。）

这些图像使用模块如ｏｐｅｎｃｖ导入到　ｐｙｔｈｏｎ　中后，是以列表的方式呈现排列的数据，并且每次令ｉｍａｇｅ　＝　ｃｖ２．ｉｍｒｅａｄ（）这类方式把数据指向到一个　ｉｍａｇｅ物件时。

都是把数据存入内存的一个过程，在内存里面的数据好处是可以非常快速的调用并处理，直到这个状态我们才算布置完数据被丢进算法前的状态。

然而，图像数据导入内存的转换并不是那么的迅捷，首先必须先解析每个像素的坐标和颜色值，再把每一次读取到的图片数据值合起来后，放入缓存中。

这样的流程在移动和读取上都显然没有优势，因此我们需要把数据回归到其最基本的本质　「二进制」　上。

Ｂｉｎａｒｙ　Ｄａｔａ　二进制数据

Ｒｅａｓｏｎｓ　ｆｏｒ　ｕｓｉｎｇ　ｂｉｎａｒｙ　ｄａｔａ，使用二进制数据的理由

如果我们手上有成批的图片数据，把它们传入算法中算结果的过程，就好比一个人爬上楼梯，坐上滑水道的入口，等待经历一段未知的短暂旅程。

滑水道有很多个通道，一次可以让假设五个人准备滑下，而这时候如果后面递补的人速度不够快，就会造成该入口一定时间的空缺，直接导致效率地下。

而这个比喻中的滑水道入口，代表的是深度学习　ＧＰＵ　计算端口，准备下滑的人代表数据本身，而我们现在需要优化的，就是如何让　ＧＰＵ　在还没处理完这一个数据之前，就已经为它准备好下一批预处理数据。

让　ＧＰＵ　永远保持工作状态可以进一步提升整体运算的效率，方法之一就是让数据回归到　「二进制」　的本质。

二进制是数据在电脑硬盘储存状态的原貌，也是数据被处理时，最本质的状态，因此批量图片数据第一件要被处理的事情就是让他们以二进制的姿态被放入到内存中。

此举就好比排队玩滑水道的人们都要事前把鞋子手表眼睛脱掉，带着最需要的东西上去排队后，等轮到自己时，一屁股坐上去摆好姿势后就可以开始，没有其他的冗余动作拖慢时间。

而我选择的入门数据库　ＭＮＩＳＴ　已经很贴心的帮我们处理好预处理的部分，分为四个类别：

测试集图像数据：　ｔ１０ｋ－ｉｍａｇｅｓ－ｉｄｘ３－ｕｂｙｔｅ．ｇｚ；

测试集图像标签：　ｔ１０ｋ－ｌａｂｅｌｓ－ｉｄｘ１－ｕｂｙｔｅ．ｇｚ；

训练集图像数据：　ｔｒａｉｎ－ｉｍａｇｅｓ－ｉｄｘ３－ｕｂｙｔｅ．ｇｚ；

训练集图像标签：　ｔｒａｉｎ－ｌａｂｅｌｓ－ｉｄｘ１－ｕｂｙｔｅ．ｇｚ。

图像识别基本上都是属于机器学习中的监督学习门类，因此四个类别其中两个是对应图片集的标签集，都是使用二进制的方法保存档案。

Ｔｈｅ　ａｐｐｒｏａｃｈ　ｔｏ　ｌｏａｄ　ｉｍａｇｅｓ　读取数据的方法

既然知道了数据库里面的结构是二进制数据，接下来就可以使用　ｐｙｔｈｏｎ　里面的模块包解析数据，压缩文件为　．ｇｚ　因此对应到打开此文件类型的模块名为　ｇｚｉｐ，代码如下：

ｉｍｐｏｒｔ　ｇｚｉｐ，ｏｓ

ｉｍｐｏｒｔ　ｎｕｍｐｙ　ａｓ　ｎｐ

ｌｏｃａｔｉｏｎ　＝ｉｎｐｕｔ（＇Ｔｈｅ　ｄｉｒｅｃｔｏｒｙ　ｏｆ　ＭＮＩＳＴ　ｄａｔａｓｅｔ：　＇）

ｐａｔｈ＝ｏｓ．ｐａｔｈ．ｊｏｉｎ（ｌｏｃａｔｉｏｎ，＇ｔｒａｉｎ－ｉｍａｇｅｓ－ｉｄｘ３－ｕｂｙｔｅ．ｇｚ＇）

ｔｒｙ：

ｗｉｔｈ　ｇｚｉｐ．ｏｐｅｎ（ｐａｔｈ，＇ｒｂ＇）　ａｓ　ｆｉ：

ｄａｔａ＿ｉ　＝　ｎｐ．ｆｒｏｍｂｕｆｆｅｒ（ｆｉ．ｒｅａｄ（），　ｄｔｙｐｅ＝ｎｐ．ｉｎｔ８，　ｏｆｆｓｅｔ＝１６）

ｉｍａｇｅｓ＿ｆｌａｔ＿ａｌｌ　＝　ｄａｔａ＿ｉ．ｒｅｓｈａｐｅ（－１，７８４）

ｐｒｉｎｔ（ｉｍａｇｅｓ＿ｆｌａｔ＿ａｌｌ）

ｐｒｉｎｔ（＇－－－－－　Ｓｅｐａｒａｔｉｏｎ　－－－－－＇）

ｐｒｉｎｔ（＇Ｓｉｚｅ　ｏｆ　ｉｍａｇｅｓ＿ｆｌａｔ：　＇，ｌｅｎ（ｉｍａｇｅｓ＿ｆｌａｔ＿ａｌｌ））

ｅｘｃｅｐｔ：

ｐｒｉｎｔ（＂Ｔｈｅ　ｆｉｌｅ　ｄｉｒｅｃｔｏｒｙ　ｄｏｅｓｎ＇ｔ　ｅｘｉｓｔ！＂）

＃＃＃－－－－－　Ｒｅｓｕｌｔ　ｉｓ　ｓｈｏｗｎ　ｂｅｌｏｗ　－－－－－　＃＃＃

Ｔｈｅ　ｄｉｒｅｃｔｏｒｙ　ｏｆ　ＭＮＩＳＴ　ｄａｔａｓｅｔ：　／ｈｏｍｅ／ａｂｃ／ＭＮＩＳＴ＿ｄａｔａ

［［０　０　０　．．．　０　０　０］

［０　０　０　．．．　０　０　０］

．．．

［０　０　０　．．．　０　０　０］

［０　０　０　．．．　０　０　０］]

－－－－－　Ｓｅｐａｒａｔｉｏｎ　－－－－－

Ｓｉｚｅ　ｏｆ　ｉｍａｇｅｓ＿ｆｌａｔ：６００００

ｐａｔｈ＿ｌａｂｅｌ　＝ｏｓ．ｐａｔｈ．ｊｏｉｎ（ｌｏｃａｔｉｏｎ，＇ｔｒａｉｎ－ｌａｂｅｌｓ－ｉｄｘ１－ｕｂｙｔｅ．ｇｚ＇）

ｗｉｔｈ　ｇｚｉｐ．ｏｐｅｎ（ｐａｔｈ＿ｌａｂｅｌ，＇ｒｂ＇）　ａｓ　ｆｌ：

ｄａｔａ＿ｌ　＝　ｎｐ．ｆｒｏｍｂｕｆｆｅｒ（ｆｌ．ｒｅａｄ（），　ｄｔｙｐｅ＝ｎｐ．ｉｎｔ８，　ｏｆｆｓｅｔ＝８）

ｐｒｉｎｔ（ｄａｔａ＿ｌ）

ｐｒｉｎｔ（＇－－－－－　Ｓｅｐａｒａｔｉｏｎ　－－－－－＇）

ｐｒｉｎｔ（＇Ｓｉｚｅ　ｏｆ　ｉｍａｇｅｓ＿ｌａｂｅｌｓ：　＇，ｌｅｎ（ｄａｔａ＿ｌ），ｔｙｐｅ（ｄａｔａ＿ｌ［］））

＃＃＃－－－－－　Ｒｅｓｕｌｔ　ｉｓ　ｓｈｏｗｎ　ｂｅｌｏｗ　－－－－－　＃＃＃

[54．．．568]

－－－－－　Ｓｅｐａｒａｔｉｏｎ　－－－－－

Ｓｉｚｅ　ｏｆ　ｉｍａｇｅｓ＿ｌａｂｅｌｓ：６００００

代码分为上下半段，上半段的代码用来提取ＭＮＩＳＴ　ＤＡＴＡＳＥＴ中训练集的六万个图像样本，每一个样本都是由２８×２８尺寸的图片数据拉直成一个１×７８４　长度的向量形式记录下来。

下半段的代码则是提取对应训练集图像的标签，表示每一个图片所描绘的数字实际上是多少，同样也是六万个标签。（注：数据储存格式同理测试集与其他种类数据库。）

Ｅｘｐｌａｎａｔｉｏｎ　ｔｏ　ｔｈｅ　ｃｏｄｅ　代码说明

基于我们对神经网络的了解，一张图片被用来放入神经网络解析的时候，需要把一个代表图像之二维矩阵的每条ｒｏｗ拼成一个长条的一维向量，以此一向量作为一张图片的计量单位。

而ＭＮＩＳＴ进一步把六万张图片的一维向量拼起来，形成一个超级长的向量后，以二进制的方式储存在电脑中，因此如果要让人们可以图像化的看懂内部数据，就需要下面步骤还原数据：

使用　ｇｚｉｐ．ｏｐｅｎ　的　＇ｒｂ＇　读取二进制模式打开指定的压缩文件；

为了转换数据成为　ｎｐ．ａｒｒａｙ　，使用　．ｆｒｏｍｂｕｆｆｅｒ；

原本的二进制数据格式使用　ｄｔｙｐｅ　修改成人类读得懂的八进制格式；

ＭＮＩＳＴ　原始数据中直到第十六位数才开始描述图像信息，而数据标签则是第八位就开始描述信息，因此　ｏｆｆｓｅｔ　设置从第十六或是八位开始读取；

读出来的数据是一整条六万个向量拼起来的数据，因此需要重新拼接数据，　．ｒｅｓｈａｐｅ（－１，　７８４）　中的　－１　像一个未知数一样，数据整形的过程中，只要　ｃｏｌｕｍｎ　＝　７８４，那　ｒｏｗ　是多少就是多少；

剥离出对应的标签时，最后还需要对其使用　ｏｎｅ＿ｈｏｔ（）　数据的转换，让标签以例如　［０，　０，　０，　１，　０，　０，　０，　０，　０，　０］　的形式表示　＂３＂　的意思，目的是方便套入损失函数中运算，并寻找最优解。

把数据使用　ｎｕｍｐｙ　数组描述好处是处理效率高，且此库和大多数数据处理的库都相容，不论是便利性和效率都是很大的优势。

后面两个链接　＂ｎｕｍｐｙ．ｆｒｏｍｂｕｆｆｅｒ＂　＂在ＮｕｍＰｙ中使用动态数组＂　进一步深入的讲述了函数的用法。

Ｌｉｎｅａｒ　Ｍｏｄｅｌ　线性模型

在理解数据集的数据格式和调用方法后，接下来就是把最简单的线性模型应用到数据集中，并经过多次的梯度下降算法迭代，找出我们为此模型定义的损失函数最小值。

回顾第一章的内容，一个线性函数的代码如下：

ｉｍｐｏｒｔ　ｎｕｍｐｙ　ａｓ　ｎｐ

ｉｍｐｏｒｔ　ｔｅｎｓｏｒｆｌｏｗ　ａｓ　ｔｆ

ｘ＿ｄａｔａ　＝　ｎｐ．ｒａｎｄｏｍ．ｒａｎｄ（１００）．ａｓｔｙｐｅ（ｎｐ．ｆｌｏａｔ３２）

ｙ＿ｄａｔａ　＝　ｘ＿ｄａｔａ　＊　０．１　＋　０．３

ｗｅｉｇｈｔ　＝　ｔｆ．Ｖａｒｉａｂｌｅ（ｔｆ．ｒａｎｄｏｍ＿ｕｎｉｆｏｒｍ（ｓｈａｐｅ＝［１］，　ｍｉｎｖａｌ＝－１．０，　ｍａｘｖａｌ＝１．０））

ｂｉａｓ　＝　ｔｆ．Ｖａｒｉａｂｌｅ（ｔｆ．ｚｅｒｏｓ（ｓｈａｐｅ＝［１］））

ｙ　＝　ｗｅｉｇｈｔ　＊　ｘ＿ｄａｔａ　＋　ｂｉａｓ

ｌｏｓｓ　＝　ｔｆ．ｒｅｄｕｃｅ＿ｍｅａｎ（ｔｆ．ｓｑｕａｒｅ（ｙ　－　ｙ＿ｄａｔａ））

ｏｐｔｉｍｉｚｅｒ　＝　ｔｆ．ｔｒａｉｎ．ＧｒａｄｉｅｎｔＤｅｓｃｅｎｔＯｐｔｉｍｉｚｅｒ（０．５）

ｔｒａｉｎｉｎｇ　＝　ｏｐｔｉｍｉｚｅｒ．ｍｉｎｉｍｉｚｅ（ｌｏｓｓ）

ｓｅｓｓ　＝　ｔｆ．Ｓｅｓｓｉｏｎ（）

ｉｎｉｔ　＝　ｔｆ．ｇｌｏｂａｌ＿ｖａｒｉａｂｌｅｓ＿ｉｎｉｔｉａｌｉｚｅｒ（）

ｓｅｓｓ．ｒｕｎ（ｉｎｉｔ）

ｆｏｒ　ｓｔｅｐ　ｉｎ　ｒａｎｇｅ（１０１）：

ｓｅｓｓ．ｒｕｎ（ｔｒａｉｎｉｎｇ）

ｉｆ　ｓｔｅｐ　％　１０　＝＝　０：

ｐｒｉｎｔ（＇Ｒｏｕｎｄ　｛｝，　ｗｅｉｇｈｔ：　｛｝，　ｂｉａｓ：　｛｝＇

．ｆｏｒｍａｔ（ｓｔｅｐ，　ｓｅｓｓ．ｒｕｎ（ｗｅｉｇｈｔ［０］），　ｓｅｓｓ．ｒｕｎ（ｂｉａｓ［０］）））

其中我们可以看到沿着ｘ轴上对应的ｙ有两组解，其中的ｙ＿ｄａｔａ是我们预设的正解，而另外一个由ｗｘ　＋　ｂ计算产生的ｙ则是我们要用来拟合正解的未知解，对应同一样东西ｘ的两个不同的ｙ轴值接下来需要被套入一个选定的损失函数中。

上面选中的是方差法，使用该方法算出损失函数后接着用ｒｅｄｕｃｅ＿ｍｅａｎ（）取平均，然后使用梯度下降算法把该值降到尽可能低的地步。

同理图像数据的归类问题，图片的每一个像素数据就好比一次上面计算的过程，如同ｘ的角色，是正确标签和预测标签所共享的一个维度数据。

而ｙ＿ｄａｔａ所对应的则是正确的标签，预测的标签则是经过一系列线性加法乘法与归一化运算处理后才得出来的结果。

图像数据有一点在计算上看起来不同上面示例的地方是：　每一个像素的计算被统一包含进了一个大的矩阵中，被作为整体运算的其中一个小单元平行处理，大大的加速整体运算的进程。

但是计算机处理物件的缓存是有限的，我们需要适量的把图像数据放入缓存中做平行处理，如果过载了则整个计算框架就会崩溃。

ＭＮＩＳＴ　ｉｎ　Ｌｉｎｅａｒ　Ｍｏｄｅｌ

梳理了一遍线性模型与ＭＮＩＳＴ数据集的组成元素后，接下来就是基于　Ｔｅｎｓｏｒｆｌｏｗ搭建一个线性回归的手写数字识别算法，有以下几点需要重新声明：

ｂａｔｃｈ　ｓｉｚｅ：　每一批次训练图片的数量需要调控以免内存不够；

ｌｏｓｓ　ｆｕｎｃｔｉｏｎ：　损失函数的原理是计算预测和实际答案之间的差距。

接下来就是制定训练步骤：

需要一个很简单方便的方法呼叫我们需要的　ＭＮＩＳＴ　数据，因此需要写一个类；

开始搭建　Ｔｅｎｓｏｒｆｌｏｗ　数据流图，用节点设计一个　ｗｘ　＋　ｂ　的线性运算；

把运算结果和实际标签带入损失函数中求出损失值；

使用梯度下降法求出损失值的最小值；

迭代训练后，查看训练结果的准确率；

检查错误判断的图片被归类成了什么标签。

Ａｃｃｕｒａｃｙ（）＃　Ａｃｃｕｒａｃｙ　ｂｅｆｏｒｅ　ｄｏｉｎｇ　ａｎｙｔｈｉｎｇ

ｏｐｔｉｍｉｚｅ（１０）；　Ａｃｃｕｒａｃｙ（）＃　Ｉｔｅｒａｔｅ　１０　ｔｉｍｅｓ

ｏｐｔｉｍｉｚｅ（１０００）；　Ａｃｃｕｒａｃｙ（）＃　Ｉｔｅｒａｔｅ　１０　＋　１０００　ｔｉｍｅｓ

ｏｐｔｉｍｉｚｅ（１００００）；　Ａｃｃｕｒａｃｙ（）＃　Ｉｔｅｒａｔｅ　１０　＋　１０００　＋　１００００　ｔｉｍｅｓ

＃＃＃　－－－－－　Ｒｅｓｕｌｔｓ　ａｒｅ　ｓｈｏｗｎ　ｂｅｌｏｗ　－－－－－　＃＃＃

Ａｃｃｕｒａｃｙ　ｏｎ　ＴｅｓｔＳｅｔ：１１．５１％

ＡｃｃｕｒａｃｙｏｎＴｅｓｔＳｅｔ：６８．３７％

ＡｃｃｕｒａｃｙｏｎＴｅｓｔＳｅｔ：８６．３８％

ＡｃｃｕｒａｃｙｏｎＴｅｓｔＳｅｔ：８９．３４％

Ａｎｎｏｔａｔｉｏｎ　Ｎｏ．１　ｔｆ．ｍａｔｍｕｌ（ｘ＿ｔｒａｉｎ，　ｗｅｉｇｈｔｓ）

这个环节是在了解整个神经网络训练原理后，最重要的一个子标题，计算的矩阵模型中必须兼顾　ｒａｎｄｏｍ＿ｂａｔｃｈ　提取随意多的数据集，同时符合矩阵乘法的运算原理，如下图描述：

矩阵位置前后顺序很重要，由于数据集本身经过我们处理后，就是左边矩阵的格式，在期望输出为右边矩阵的情况下，只能是　ｘ·ｗ　的顺序，以　ｘ　的随机列数来决定后面预测的标签列数，　ｗ　则决定有几个归类标签。

Ｒｅａｓｏｎ　ｏｆ　ｕｓｉｎｇ　ｏｎｅ＿ｈｏｔ（）

数据集经过一番线性运算后得出的结果如上图所见，只能是　ｓｉｚｅ＝［Ｎｏｎｅ，　１０］　的大小，但是数据集给的标签答案是数字本身，因此我们需要一个手段把数字转换成　１０　个元素组成的向量，而第一选择方法就是　ｏｎｅ＿ｈｏｔ（）　，同时使用　ｏｎｅ＿ｈｏｔ　的结果来计算损失函数。

Ｆｉｎａｌｌｙ

呼叫上面定义的函数，如下代码：

ｗｒｏｎｇ＿ｐｒｅｄｉｃｔｅｄ＿ｉｍａｇｅｓ（ｐｉｃ＿ｎｕｍ＝［３，　３］，　ｌａｂｅｌ＿ｎｕｍｂｅｒ＝５）

其中可以自行选择想要一次陈列几张图片，每次陈列的图片都是随机选择，并同时可以选择想查看的标签类别，如上面一行函数设定为　５　，则就只显示标签　５　的错误判断图片和误判结果。最后等整个框架计算完毕后，需要执行下面代码结束　ｔｆ．Ｓｅｓｓｉｏｎ　，释放内存：

ｓｅｓｓ．ｃｌｏｓｅ（）

ＣＳＤＮ　原文：

ｈｔｔｐｓ：／／ｂｌｏｇ．ｃｓｄｎ．ｎｅｔ／Ｋｕｏ＿Ｊｕｎ＿Ｌｉｎ／ａｒｔｉｃｌｅ／ｄｅｔａｉｌｓ／８２１０６７１１？ｕｔｍ＿ｓｏｕｒｃｅ＝ｃｏｐｙ

作者：郭俊麟，ＣＳＤＮ博客专家，来自中国台湾新北市，东华大学光电工程学系毕业，毕业后持续学习编程语言和人工智能相关知识。最初用英语写笔记，经过几个月努力后，笔记量逐渐庞大，进而萌生发表的想法。因此来到ＣＳＤＮ网站，开始了笔记翻译工作，把之前写的英语文章，重新翻译成中文，并发布在博客上。

非常感谢各位看官能在百忙之中阅读小编的文章，您们的阅读和评论是小编继续坚持创作的动力。你们的每一个评论，小编都会去非常认真的去阅读，你们提出的宝贵意见我也会虚心接受，争取每天都为大家带来更多的优质文章。让大家不但可以增长见识，还可以有个好的心情。希望您能喜欢小编的文章！

发表于: 2018-10-272018-10-27 17:52:49
原文链接：https://kuaibao.qq.com/s/20181027A19XV300?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

快速使用Ｔｅｎｓｏｒｆｌｏｗ读取 7 万数据集！

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐