遍历tf.data.Dataset的高效方法

文章/答案/技术大牛

发布

1回答

、、、

我想知道在TensorFlow 2.4中遍历tf.data.Dataset最有效的方法是什么。我使用了典型的： for example in dataset: code 但是，我测量了墙时间，因为我的数据集很大，所以计算循环需要太多时间。有没有其他方法可以减少计算时间？

浏览 70提问于2021-08-01得票数 3

回答已采纳

2回答

由于input_func每次都会设置数据集(重新初始化tf.data.Dataset)，因此在10次中的每一次都会对数据集的同一子集进行评估。我知道在每个train()中，它都会遍历tf.data.Dataset。但是如果再次调用train()，它将像上次一样遍历tf.data.Dataset的相同子集(假设shuffle为False)。例如，使用数据行1-10000创建用于第一次调用estimator.train()的tf.

浏览 1提问于2019-01-02得票数 0

1回答

计算tensorflow.data.Datset元素的最快方法是什么？

、、

有没有一种更快的方法来计算tensorflow.data.Dataset的所有元素 def count_elements(dataset: tf.data.Dataset): return dataset.reduce(0, lambda x, _ : x + 1).numpy() “更快”意味着也要考虑内存使用，但执行时间是最重要的。据我所知，没有内置的方法可以做到这一点。

浏览 95提问于2020-01-21得票数 0

回答已采纳

1回答

将tf.dataset写回TFRecord

、、

创建tf.data.Dataset后，我想将其写入TFRecords。有没有更简单的方法来做到这一点？TF2.0中有可用的API吗？

浏览 21提问于2019-08-12得票数 7

1回答

如何找到tensorflow数据集对象的大小？

、

我已经创建了tensorflow dataset对象，我想知道这个数据集的大小。

浏览 17提问于2019-12-23得票数 0

回答已采纳

1回答

如何使用tf.data.Dataset对象上的序列/生成器将部分数据放入内存？

、、、、

我使用tf.keras.preprocessing.image_dataset_from_directory()函数()加载图像，该函数返回tf.data.Dataset对象： return list(self.dataset.as_numpy_iterator())[idx] 我训练模特的方法是问题是getitem()必须返回一批带有索引<e

浏览 6提问于2020-07-28得票数 1

回答已采纳

1回答

AttributeError: MapDataset对象在tensorflow_federated tff中没有属性“预处理”

、、、、

我正在用非IID发行版测试本教程，用于联邦学习：我试着先应用它(见代码)，得到了一个错误！preprocess_train_dataset) 由于数据集是经过过滤的，所以，在这种情况下，它是根据什么标签过滤的？ ... label_key='labe

浏览 21提问于2022-05-01得票数 1

回答已采纳

1回答

ValueError:尝试访问数据集时没有足够的值进行解包(预期为% 2，实际为% 1)

、、

test_ds是shape的数据集 <PrefetchDataset shapes: ((None, 256, 256, 3), (None,)), types: (tf.float32, tf.int32image_batch,label_batch=test_ds.take(1) ValueError: not enough values to unpack (expected 2, got 1) 谁能让我知道这里的问题

浏览 17提问于2021-10-09得票数 1

回答已采纳

2回答

tf.estimator.Estimator.train()是否维护input_fn状态？

我已经像代码一样使用了我自己的估计/实验一年多了，但我想最终加入Dataset+Estimator潮流。estimator.train(train_input_fn, steps=1000)其中，train_input_fn创建了一个永久遍历训练集的tf.data.Dataset，而validation_input_fn则创建了一个tf.data.Dataset来完成验证集的一次通过。这就是人

浏览 2提问于2017-10-25得票数 3

回答已采纳

1回答

tf.data.Dataset的RandomShuffleQueue功能

、、

我想用tf.data.Dataset替换我的旧RandomShuffleQueue方法。对于一些背景知识:我在运行时生成数据，将其放入队列中，然后随机取出。我看不到使用tf.data.Dataset的方法，因为我总是需要生成数据，而我又没有办法将新数据放入Dataset中。像repeat这样的东西对我没有帮助，因为它总是使用我预先设置的相同元素在Dataset上工作。您知道如何将Queue功能添加到tf.data.Dataset中吗

浏览 9提问于2019-02-08得票数 0

回答已采纳

1回答

为TensorFlow训练存储大量文本数据？

、

我想知道在序列到序列的问题中存储这些数据的推荐方法是什么，以使其在tf.data.Dataset中易于使用和高效？基本上，我可以有一个名为data.txt的文件和另一个名为labels.txt的文件，这两行中的每一行都是一个训练示例。基本上我可以使用tf.data.TextLineDataset，但我需要以某种方式将文本转换为整数序列，即索引到我的词汇表中。我的问题是，是否有一种有效的方法<

浏览 0提问于2018-03-17得票数 1

1回答

tf.data数据集中的不同标签数和输入数据形状

教程很棒.但是很明显，您必须事先知道，，数据集中有10个不同的标签，输入数据是大小为28x28的图像数据。我认为这些细节应该可以很容易地从数据集本身发现--这有可能吗？我能否在完全不同的数据集中以同样的方式发现相同的信息(例如，，它由N列CSV数据组成的M行组成，是一个二进制分类任务)。的API中似乎没有任何明显的get_label_count()或get_input_shape()函数。叫我新手吧，但这让我很困惑。

浏览 3提问于2020-05-05得票数 0

1回答

对于定制的Python代码，是否有tf.py_function()的替代方案？

、、

假设我有这个用例:在使用tf.data.Dataset摄取数据时，我想对一些图像应用一些特定的增强操作。但是，我使用的外部库需要，即映像是一个numpy数组，不是张量。当使用tf.data.Dataset.from_tensor_slices()时，流动的数据需要类型张量。我阅读了TensorFlow 2.0上的文档，指出如果要使用任意的python逻辑，则应该使用tf.py_function 或仅使用TensorFlow原语(根据： ) 我的问题是以下：在带有自定义装

浏览 15提问于2019-12-27得票数 7

回答已采纳

1回答

Keras和make_csv_dataset兼容性

、

在tensorflow 1.9.0中，tf.contrib.data.make_csv_dataset()可以用于Keras模型吗？

浏览 37提问于2018-08-02得票数 1

1回答

是否有适当的方法来子类Tensorflow的数据集？

、

我研究了不同的方法，可以使用自定义Tensorflow数据集，并且我习惯于查看，但当我查看时，我看到了下面的示例： args=(num_samples,)但是出现了两个问题：看起来，它所做的就是当对象被实例化时，__new__方法只是调用tf.data.Dataset.from_gener

浏览 6提问于2022-05-20得票数 2

1回答

如何有效地将数据输入TensorFlow 2.x，

、、、

我正在查看大量文本数据上的数据预处理任务，希望将预处理后的数据加载到TensorFlow 2.x中。预处理数据包含整数值数组，因为预处理步骤生成：每个数据行的令牌标记列表。但是，我在tf.data.Dataset中处理tf.data.Dataset文件时遇到了问题(或者其他任何可以与TensorFlow 2.x接口的高效扩展文件)。除了Tensorflow和PySpark之外，我不想使用/安装一个额外的库(

浏览 3提问于2021-03-13得票数 2

1回答

Tensorflow 2-如何将适应的TextVectorization应用于文本数据集

、

问题背景问题这是可行的，但不清楚上面为什么会导致错误，尽管它似乎也在做同样的事情。

浏览 10提问于2021-04-09得票数 0

回答已采纳

2回答

无法将tf.data.Dataset对象转换为numpy迭代器

、、

我使用的是Tensorflow 1.14.0和tensorflow_datasets 1.2.0import tensorflow as tfassert isinstance(smallnorb_train, tf.data.Datasetsmallnorb_train.as_numpy_itera

浏览 5提问于2020-02-16得票数 1

回答已采纳

1回答

AttributeError: MapDataset对象在tensorflow_federated TFF中没有属性“client_ids”

、、、、

我正在尝试使用这个API tff.simulation.datasets.build_single_label_dataset()，在联邦学习中测试一种使用非IID的压缩技术，如下所示：但是在定义了模型并对其进行了培训之后感谢您的帮助！

浏览 10提问于2022-05-06得票数 2

1回答

使用tf.data.Dataset以节省内存的方式加载数据的最佳方式是什么

、、、

我正在尝试为对象检测+实例分割的优化模型加载数据。然而，使用tf.data.Dataset让我在加载实例分段掩码时有点头疼。tf.data.Dataset正在使用服务器上的所有内存(超过128 GB)和较小的数据集。有没有一种方法可以以更高效的内存方式有效地加载数据，现在我们使用的是以下代码： train_dataset, train_examples = dataset.load_train_datasets()train_proc

浏览 2提问于2021-07-30得票数 0

点击加载更多