问处理大训练数据
EN

Stack Overflow用户

提问于 2016-05-25 13:45:46

回答 1查看 4.2K关注 0票数 1

我写这封信是为了询问如何将一个大的训练数据提供给张量流模型的原理。我的培训数据托管在csv文件中，基本上是使用下面的代码将数据加载到队列中。

filename_queue = tf.train.string_input_producer([...])
reader = tf.TextLineReader()
_, line = reader.read(filename_queue)

line = tf.decode_csv(line, record_defaults=default)
label_batch, feature_batch = tf.train.shuffle_batch([label, feature], batch_size=batch_size, capacity=512, min_after_dequeue=256,  num_threads=8)

我的实验如下：

Exp#1:一个140克大小的文件。我的程序被“杀了”，猜OOM。
Exp#2:将大文件分成340个小文件。程序工作，但GPU几乎利用了=> 0%，从张量板项目在批队列中变得越来越小。

我认为在#2中，将数据加载到队列是一个瓶颈，但我已经使用了8个线程来加载数据。虽然训练数据中的示例有224*224*3的特性，但我认为只将其中的512加载到16 of内存中就不应该太慢了。

有人能在上面亮几下灯吗？我接下来该怎么办？把csv转换成二进制？

tensorflow

回答 1

Stack Overflow用户

发布于 2016-05-25 14:41:09

您确实可以将文件转换为tensorflow二进制格式(.tfrecords)并在线加载数据。请参考本教程以了解如何通过。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/37439118

复制

相似问题

问处理大训练数据
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问处理大训练数据EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问处理大训练数据
EN