如何在TensorFlow中高效使用数据集

文章来源：企鹅号 - 机器之心

选自TowardsDataScience

作者：Francesco Zuppichini

机器之心编译

处理并使用数据集是深度学习任务非常重要的组成部分。在本文中，作者 Francesco Zuppichini 将教你使用 TensorFlow 的内建管道向模型传递数据的方法，从此远离「feed-dict」。本文内容已更新至最新的 TensorFlow 1.5 版本。

相关代码地址：https://github.com/FrancescoSaverioZuppichini/Tensorflow-Dataset-Tutorial/blob/master/dataset_tutorial.ipynb

经常使用神经网络框架的人都会知道，feed-dict 是向 TensorFlow 传递信息最慢的方式，应该尽量避免使用。向模型提供数据的正确方式是使用输入管道，这样才能保证 GPU 在工作时永远无需等待新的数据。

幸运的是，TensorFlow 拥有一个名为 Dataset 的内建 API，它可以让我们的工作更加简单。在本教程中，我们将介绍搭建内建管道，让数据高效传递给模型的方法。

本文将解释 Dataset 的基本原理，包含大多数常用案例。

概述

使用 Dataset 需要遵循三个步骤：

载入数据：为数据创建一个数据集实例。

创建一个迭代器：通过使用创建的数据集构建一个迭代器来对数据集进行迭代。

使用数据：通过使用创建的迭代器，我们可以找到可传输给模型的数据集元素。

载入数据

我们首先需要一些可以放入数据集的数据。

从 Numpy 导入

这是一种常见情况：我们拥有一个 numpy 数组，想把它传递给 TensorFlow。

我们当然也可以传递多个 numpy 数组，一个典型的例子是：当我们已有被分配多个特征和标签的数据时……

从张量导入

当然，我们也可以从张量中初始化自己的数据集。

从占位符导入

当我们希望动态地修改 Dataset 中的数据时，这就会很有用，稍后会有详述。

从生成器导入

我们还可以从生成器中初始化 Dataset，这种方式在拥有不同长度的元素的数组时有意义（例如一个序列）。

在这种情况下，你还需要告诉 Dataset 数据的类型和形状以创建正确的张量。

创建迭代器

我们已经学会创建数据集了，但如何从中获取数据呢？我们必须使用迭代器（Iterator），它会帮助我们遍历数据集中的内容并找到真值。有四种类型的迭代器。

One Shot 迭代器

这是最简单的迭代器，使用第一个示例：

随后你需要调用 get_next() 来获取包含这些数据的张量

我们可以运行 el 来查看它们的值。

可初始化的迭代器

如果我们想要创建一个动态的数据集，在其中可以实时更改数据源，我们可以用占位符创建一个数据集。随后我们可以使用通常的 feed-dict 机制来初始化占位符。这一过程可用「可初始化迭代器（initializable iterator）」来完成。使用上一节中的第三个例子：

这次我们调用 make_initializable_iterator。然后，我们在 sess 中运行 initializer 操作，以传递数据，这种情况下数据是随机的 numpy 数组。

假设现在我们有了训练数据集和测试数据集，那么常见的代码如下：

然后，我们训练该模型，并在测试数据集上对其进行测试，测试可以通过训练后再次初始化迭代器来完成。

可重新初始化的迭代器

这个概念和之前的类似，即在数据之间动态地转换。但并不是将新数据馈送到相同的数据集，而是在数据集之间转换。如前，我们需要一个训练集和一个测试集。

我们可以创建两个数据集：

接下来是要展示的技巧，即创建一个通用的迭代器：

以及两个初始化运算：

和之前一样，我们得到了下一个元素：

现在，我们可以直接使用会话运行这两个初始化运算。总结起来我们得到：

可馈送的迭代器

老实说，我并不认为这个有什么用。基本上，它是用迭代器之间的转换取代了数据集之间的转换，从而得到如一个来自 make_one_shot_iterator() 的迭代器，以及一个来自 make_initializable_iterator() 的迭代器。

使用数据

在前述例子中，我们利用会话输出 Dataset 中下一个元素的值。

为了将数据传递给模型，我们只需要传递从 get_next() 生成的张量。在下面的代码中，我们有一个包含了两个 numpy 数组的 Dataset，这里用了和第一节一样的例子。注意，我们需要将.random.sample 封装到另一个 numpy 数组，以增加一个维度，从而将数据进行分批。

然后，和往常一样，我们创建一个迭代器：

创建一个模型，即一个简单的神经网络：

我们直接使用来自 iter.get_next() 的张量作为第一层的输入和损失函数的标签。总结起来我们得到：

输出：

一些有用的技巧

数据分批

通常数据分批是一件令人痛苦的事情，但通过 Dataset API，我们可以利用 batch(BATCH_SIZE) 方法自动地将数据集按设定的批量大小进行分批。默认批量大小为 1。在下面的示例代码中，我们使用的批量大小为 4。

输出：

repeat

使用.repeat()，我们可以指定数据集被迭代的次数。如果不传输任何参数，循环将永久进行。通常来说，永久运行循环和在标准循环中直接控制 epoch 的数量可以得到不错的结果。

shuffle

我们可以利用 shuffle() 进行数据集 shuffle，默认是在每一个 epoch 中将数据集 shuffle 一次。记住：数据集 shuffle 是避免过拟合的重要方法。

我们还可以设置参数 buffer_size，下一个元素将从该固定大小的缓存中均匀地选取。例如：

第一次运行的输出：

第二次运行的输出：

这样，数据集 shuffle 就完成了。你还可以设置 seed 参数。

MAP

你可以使用 map 方法对数据集中的所有成员应用定制化函数。下列示例中，我们把每个元素乘 2：

输出：

其他资源

TensorFlow 数据集教程：https://www.tensorflow.org/programmers_guide/datasets

数据集文档：https://www.tensorflow.org/api_docs/python/tf/data/Dataset

结论

该数据集 API 使我们快速、稳健地创建优化输入流程来训练、评估和测试我们的模型。本文中，我们了解了很多可以常见操作。

本文为机器之心编译，转载请联系本公众号获得授权。

------------------------------------------------

发表于: 2018-02-112018-02-11 12:40:06
原文链接：http://kuaibao.qq.com/s/20180211A0F18500?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

如何在TensorFlow中高效使用数据集

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐