开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >TensorFlow:从大文件中高效地读取(和洗牌)示例

问TensorFlow:从大文件中高效地读取(和洗牌)示例
EN

Stack Overflow用户

提问于 2020-05-13 02:31:37

回答 1查看 588关注 0票数 0

设置

我有几十个中等大小的文件(~1G)，每个文件包含给定类的每一行一个样本。在每个文件中，样本都是非随机的，即A文件的I‘样本与B文件的I’样本有一定的相关性，因为数据是每个类的某个轴上的样本(细节并不重要)。

问题

读取和处理内存中的所有样本不是一种选择，因为(1)可能多达数百个文件；(2)每个样本的内存占用在预处理后显着增加(例如，由于较大的一热编码向量)。

我的目标是有效地从磁盘读取示例(或批)，并将其输入到我的tf.keras模型中。此外，我希望在每个时代之后，将样本(或批)输入到网络中的顺序进行洗牌。

我如何以合理的效率存档这个文件，也就是说，我的GPU在训练期间不会空闲？

tensorflow-datasets

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-05-13 05:45:13

这里有一个建议，假设您正在读取TFRecord文件。具体参数取决于每个示例的大小和可用资源：

import tensorflow as tf
ds = (tf.data.Dataset.list_files('data_dir/*.tfrecord')
      .cache()
      .repeat()
      .shuffle(1_000)
      .interleave(tf.data.TFRecordDataset, block_length=100,
                  # Optional
                  num_parallel_calls=tf.data.experimental.AUTOTUNE)
      .shuffle(10_000)
      .map(record_parse_function)
      .batch(32)
      .prefetch(1))

无论如何，阅读tf.data和输入流水线性能是值得推荐的。

票数 2

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61772307

复制

相关文章

SQL Server数据仓库的基础架构规划

sql sql server 数据库数据挖掘

SQL Server数据仓库具有自己的特征和行为属性，有别去其他。从这个意义上说，数据仓库基础架构规划需要与标准SQL Server OLTP数据库系统的规划不同。在本文中，我们将介绍在计划数据仓库时应该考虑的一些事项。

用户1217611

2019/05/25

1.8K0

这是Blazor上传文件的最佳方式吗？

https 网络安全 github git 开源

Blazor不得不说真是好东西，极大的提升了开发效率，很多的页面交互功能基本上只需要写很少的代码就能实现了，而且还是无js实现，你也绝对没有想到过，Blazor实现文件上传是有多么简单！

沙漠尽头的狼

2022/03/26

1.4K0

这是Blazor上传文件的最佳方式吗？

和我从头学SQL Server Integration Services

sql server ide sql

本人一个IT屌丝男，一直在ITPRO的圈子里面混着，从来不是一个程序猿，水平就是开开关关windows的水平。昏昏然，成了一个油腻的大叔，但我的内心和业务水平还是停留在26岁啊! 周围的同事好友一个个都一日千里的学习进步着，实在看不下去自己了，决定整理整理，给自己，给儿子摆一个努力学习的POSE出来。

盆盆

2019/04/24

3.3K0

和我从头学SQL Server Integration Services

「集成架构」2020年最好的15个ETL工具(第一部)

数据集成数据安全数据迁移数据分析数据处理

ETL代表提取、转换和加载。它是从任何数据源中提取数据并将其转换为适当格式以供存储和将来参考的过程。

架构师研究会

2021/01/06

4.2K0

「集成架构」2020年最好的15个ETL工具(第一部)

微服务之间的最佳调用方式

在微服务架构中，需要调用很多服务才能完成一项功能。服务之间如何互相调用就变成微服务架构中的一个关键问题。

Bug开发工程师

2020/03/16

8010

微服务之间的最佳调用方式

rpc 微服务数据库 sql

在微服务架构中，需要调用很多服务才能完成一项功能。服务之间如何互相调用就变成微服务架构中的一个关键问题。

用户1516716

2019/12/26

3.4K0

SSIS 关于并发的两个设置

linux https java 网络安全 sql

MaxConcurrentExecutables, a package level property in SSIS determines the number of control flow items that can be executed in parallel. The default value is -1. This is equivalent to number of processors (logical and physical) plus 2.

全栈程序员站长

2022/07/05

6930

使用 SQL NOWAIT 的最佳方式

数据库 sql 开发事务语法

摘要：SQL NOWAIT使我们能够在获取行级锁时避免阻塞，本文中我们将学会使用这个功能最佳方法。

姚远OracleACE

2023/04/06

1K0

使用 SQL NOWAIT 的最佳方式

Android开发(25) 两个App之间使用intent交换数据

两个App之间如何进行数据交换，像“使用intent调用系统自带的拍照应用并获得结果” 是一种很方便的形式。它发送一个 Intent，这个Intent指明启动了另外一个App，完成任务后指定返回结果，原先的App接收返回的结果。

张云飞Vir

2020/03/16

1.6K0

不用 SQL 的数据仓库

数据库 sql 数据数据仓库性能

当前绝大部分数据仓库都会采用 SQL，SQL 发展了几十年已经成为数据库界的标准语言，用户量巨大，所以支持 SQL 对于数据仓库来讲也是很正常的。但是，在当代大数据背景下，业务复杂度节节攀升，在以计算为主要任务的数据仓库场景下，SQL 似乎越来越不够用了。典型表现是一些数据仓库开始集成 Python 的能力，将 Python 这样的非 SQL 语言融入到数据仓库中。且不论两种风格迥异的开发语言是否能很好融合互补，单看这样的趋势已经足够表现出业界对 SQL 能力的一些质疑。

搜云库技术团队

2023/10/21

2200

介绍几种SSIS部署方式

介绍如果你已经开发完一个不错的SSIS包并且能够在你的本地完美的运行，每个任务都亮起绿色的通过标志。这时为了能够让这个包处理能够在指定时间运行，你需要将其发布到一个服务器上，并做好相关配置。作为开发人员可能我们不能直接在生产环境去做这个事情，这需要我们有一个开发或者测试环境来完成整个部署测试，因为DBA有时候不会允许你去直接访问生产环境。本篇将介绍几种从本地到服务器的部署包的方法。SQLServer 2012中引入的项目部署模型不再重复记述了，因为SSIS2012的报部署模型也是用来相似

用户1217611

2018/01/30

1.8K0

SQL Server仓储物流公司visual studio发货数据仓库设计

仓储物流是货物生产销售的重要环节。随着贸易自由化和电子商务的兴起，物流企业快速发展，为提高仓库管理效率，发掘更多的仓库供应商客户，合理配置资源并降低经营成本，经营者在制定经营决策时需要分析仓储物流过程的整个环节的数据，然而在业务系统中的数据是按照业务过程进行组织的，处于孤立分散的状态并不适用于数据的统计和分析。在仓储物流系统上建立数据仓库，按照用于决策分析的主题对不同系统中数据进行重新组织，为数据分析和数据挖掘提供有效的数据来源。

拓端

2023/04/24

3090

怎样在SQL Server数据库执行sql脚本？

sql server 数据库 sql

注意：在操作前需要先把数据库的数据进行备份，以防数据出错，导致数据库损坏！（找到数据库，右键备份，选择备份输出的位置即可。）

管家婆软件

2022/11/21

18K0

怎样在SQL Server数据库执行sql脚本？

一般数据库增量数据处理和数据仓库增量数据处理的几种策略

unix 数据库 sql 数据处理

通常在数据量较少的情况下，我们从一个数据源将全部数据加载到目标数据库的时候可以采取的策略可以是：先将目标数据库的数据全部清空掉，然后全部重新从数据源加载进来。这是一个最简单并且最直观的并且不容易出错的一种解决方案，但是在很多时候会带来性能上的问题。

用户8949263

2022/04/08

3.2K0

一般数据库增量数据处理和数据仓库增量数据处理的几种策略

【FinTech】机器学习是发展金融科技公司的最佳方式吗？

机器学习编程算法模式识别

今天，机器学习在金融生态系统的许多阶段扮演着不可或缺的角色。从审批贷款到管理资产，评估风险。然而，只有少数技术娴熟的专业人员能准确了解ML如何进入日常金融生活。现在，由于机器学习，欺诈检测变得容易。最近的技术进步使金融机构能够探索机器学习技术在客户服务，个人理财和财富管理以及欺诈和风险管理等领域的应用。

陆勤_数据人网

2018/07/30

8680

【FinTech】机器学习是发展金融科技公司的最佳方式吗？

在Python中操纵json数据的最佳方式

json python xslt & xpath

在日常使用Python的过程中，我们经常会与json格式的数据打交道，尤其是那种嵌套结构复杂的json数据，从中抽取复杂结构下键值对数据的过程枯燥且费事。

朱卫军 AI Python

2022/04/03

4K0

在Python中操纵json数据的最佳方式

如何将生产环境的字段类型从INT修改为BIGINT

介绍改变数据类型是一个看起来很简单的事情，但是如果表非常大或者有最小停机时间的要求，又该如何处理那？这里我提供一个思路来解决这个问题。背景在一个常规SQL Server heath检查中，使用sp_blitz，我们最大的生产表之一引发了令人担忧的警报。保存客户订单信息的表的ID列是一个INT datatype，很快就将达到最大值。这个表大约有500GB，有超过9亿行。根据在该表上每天的平均插入数，我估计未来八个月后，在这张表上的插入将会溢出。这是一个订单输入表，由于客户的活动，需要24小时的插入。一

用户1217611

2018/03/29

5.1K0

如何将生产环境的字段类型从INT修改为BIGINT

ETL产品、ETL工具、E T L技术三者啥关联？

大数据数据处理数据挖掘

1、产品—为了满足市场需要，而创建的用于运营的功能及服务”就是产品。产品是以使用为目的物品和服务的综合体。产品分类：服务、软件、硬件、流程性材料。其中这里提供的是软件。

用户8369250

2021/03/08

1.2K0

如何将生产环境的字段类型从INT修改为BIGINT

腾讯云测试服务 ide 数据库 sql sql server

改变数据类型是一个看起来很简单的事情，但是如果表非常大或者有最小停机时间的要求，又该如何处理那？这里我提供一个思路来解决这个问题。

全栈程序员站长

2021/11/29

3K0

如何将生产环境的字段类型从INT修改为BIGINT

SQL练习之两个列值的交换

sql 数据库数据处理

SELECT * FROM dbo.test2 现在我们将Province列值和Company列值互换,代码如下: UPDATE test2 SET Company=Province, Provin

郑小超.

2018/01/24

3.6K0

相似问题

在两个SQL Server 2008表之间复制海量数据的最佳方式

112

SQL Server在行之间交换数据问题

11

在SQL Server中处理数据的最佳方式？

20

在两个位置之间传输(小型) SQL Server数据库的最佳方式是什么？

26

在sql脚本中在两个XML文件之间交换数据？

12

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例