文章/答案/技术大牛

发布

DLP教程系列之图像分类：（1）准备数据

文章来源：企鹅号 - 深度学习平台DLP

深度学习平台(DLP)软件是一个用于深度学习应用开发的免编程软件平台，致力于为广大深度学习应用开发者打造一个高效并且具备良好用户体验的开发工具。

本教程将以图形分类任务为切入口，给大家展示如何使用DLP一步一步地开发一个图像分类的应用。

1. 数据集描述及获取

在本教程中，我们将使用fashion-mnist数据集，这个数据集是电子商务公司Zalando的研究人员提出的。 Fashion-mnist包含了各种物品和服装的图像，如衬衫，鞋子，包包，大衣和其他时尚物品，包含60000个示例的训练集和10000个示例的测试集。与MNIST类似，整个数据集包含10个类别（T恤，裤子，套头衫，连衣裙，大衣，凉鞋，衬衫，运动鞋，包和踝靴），每个类别包含28x28灰度图像。下图中每三行属于同一个类别。

https://pan.baidu.com/s/1cVy4P4

/ / .png

训练集文件夹包含标记过的PNG图像，将用于训练Caffe模型。测试集文件夹也包含经过标记的PNG图像，这些图像将被用来评估训练好的Caffe模型。

2. DLP分类数据处理界面介绍

启动DLP后，将会看到下面的界面：

在这里有多种组合可供选择，灰色选项将在今后的版本中开启。在“1.选择模型类型”下选择“Classification”，然后在“2.选择数据类型”下选择“Image”，然后点击“Continue”转到分类数据处理模块。首先让我们熟悉一下这个界面的主要部分：

1. 导航栏：包含DLP中不同模块的控件，以及一个工具栏，工具栏中包含设置按钮、以及链接到DLP网站页面的按钮等。

2. 功能栏：包含处理分类图像数据的所有功能按钮。

3. 可视化区域：图像显示区域。

4. 类别设置：包含分类任务定义的类别信息以及每个类别的图像数量。

5. 图像设置：包含图像数据的可配置参数。

现在我们已经熟悉了界面，让我们开始使用分类数据处理模块。

3. 设定工作路径

设定工作路径是一个非常良好的习惯。在正式开展分类任务之前，点击“SetDir”按钮，选择一个文件夹作为工作路径，之后在DLP里导入或导出数据都将会以此路径作为默认起始路径。

设定后的工作路径会在下方状态栏中显示：

4. 添加类别和图像

DLP用一种非常简单直观的方式来可视化和组织数据集。在功能栏里点击“AddClass”，Class Setting面板下的可编辑标签区域将显示：

在类别名称文本框中输入类别名称“Top”，每个类别名称和相应的删除图标之间都有一个数字，该数字表示每个类别的图像数量。由于尚未给指定类别添加图像，因此现在每个类别都具有0张图片。接下来添加图片，首先单击标签区域前面的黄色按钮，然后在功能栏里单击“AddImg”，在弹出的文件选择器中导航到电脑中包含与特定标签对应的图像文件夹(也可多选或单选对应图片)。例如，要添加对应于标签“Top”的图像，在fashion_mnist_data文件夹内导航到：/ training / 0，然后选中“0”文件夹。添加图片后，界面如图所示：

由于Fashion-mnist是一个包含10类不同物体的数据集，我们将重复上述过程9次。

5. 图像设置

在“Image Setting”面板下，输入数据集名称，将输出尺寸选项设置为28x28，将图像类型设置为灰度（因为我们正在处理28x28灰度图像）。为ImageEncode选择PNG，表明处理编码为png格式的28x28灰度图像；为BackEnd选择LMDB，表明在图像格式转化的时候以lmdb格式存储；将测试集所占总数据集的比重设为25%；勾选shuffle和MeanFile，表明将数据进行混洗并生成均值文件，并将均值文件命名为“mean28x28.binaryproto”。

一旦定义了图像设置参数，就可以通过单击功能栏上的“Preview”来预览图片。在可视化区域中，图像大小更改为与“Image Setting”面板中定义的图像大小相匹配。

6. 数据导出、导入、和转换

至此，数据集已完成整理。

如果电脑尚未配置Caffe，可将整理后的数据集导出至本地。点击功能栏中的“Export”按钮，会弹出一个文件选择器，输出文件名称会自动变更为数据集的名称。点击“Save”，所有的图片数据会被导出至所选文件夹。

完成导出后，在所选文件中会生成2个文件夹和4个文件。两个文件夹分别对应训练集和测试集，四个文件中包含：训练集文件、测试集文件、标签文件，以及汇总文件。

导出的数据可在之后被重新导入，点击功能区的“Import”按钮，在文件选择器中选择“fashion_mnist_28x28.txt”，整理好的数据可被重新导入。

如果电脑中配置了Caffe，并且在顶部右侧工具条中设置了相关路径：

Caffe tools:/Users/Documents/caffe/build/tools

Caffe python:/Users/Documents/caffe/python

Python bin:/Users/bin

可继续进行数据转换，在功能栏中单击“Convert”命令，之后的步骤和Export的步骤是一样的。需要注意的是：如果所选文件夹中已存在了同名的文件，那么该文件会被略过，而不会被覆盖。因此，笔者在此建议，如果数据集有所改动，请导出至一个空的文件夹。对于每个数据集，Convert命令把图像存储为lmdb文件，均值文件也会被生成。

至此，用于分类任务的数据就已经全部准备完毕。

下期预告：DLP教程系列之图像分类: (2)网络搭建

发表于: 2018-02-042018-02-04 20:09:29
原文链接：http://kuaibao.qq.com/s/20180204G0U9C300?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

DLP教程系列之图像分类：（1）准备数据

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐