欢迎点击「算法与编程之美」关注我们!
本文首发于微信公众号:"算法与编程之美",欢迎关注,及时了解更多此系列文章。
通过分析keras提供的预定义图像数据集,总结如下:
(1) mnist数据集采用numpy的npz方式以一个文件的方式存储文件,加载后就可以直接得到四个数组,非常方便。
(2) fshion-mnist数据集利用四个gz格式压缩包存储四个数组的内容,加载后利用numpy的frombuffer()方式加载数组。
(3) cifar数据集则是将训练集分为五个文件,每个一万条,测试集一个文件,利用pickle的dump()方法以字典的方式写入文件,然后通过pickle的load()方法加载字典,在字典中保存了data和labels.
三种不同的方式处理了三种数据集,各有特点,对于今后处理图像数据集具有非常好的借鉴价值。今后在做图像分析处理任务的时候,可以将任务分为两个阶段,第一阶段为数据预处理,第二阶段为数据分析。
第一阶段的主要任务是收集有标签的图片数据,进行清洗,然后以numpy数组(x_train, y_train, x_test, y_test)格式的形式保存为npz格式的文件。
第二阶段直接读取npz文件就可以得到x_train, y_train, x_test, y_test四个数组,就可以非常方便的得到数据,建立模型,开始分析。
两个任务以pipeline的方式进行,可以极大的提升效率。
领取专属 10元无门槛券
私享最新 技术干货