读取和处理多个大型数据文件的良好实践？

、、、

如果我有几个大文件JSON文件(500MB压缩，3 3GB未压缩)，有什么好的做法来处理它们？另外，在执行过程中，我的内存几乎全部被消耗掉了，即使在执行结束后，仍有大量内存仍在“使用”。each)) calculations, visualization etc) 它一次执行五个文件中的两个与第一种方法相比，它可能需要7-8倍的时间。我无法想象我怎么能把5个都处理好。我已经尝试了相同<e

浏览 28提问于2020-12-02得票数 0

1回答

R中data.table包中fread速度落后的原因

、、、

我对data.table中处理大型数据文件的fread函数的速度感到惊讶，但它是如何读取这么快的数据的呢？fread和read.csv之间的基本实施差异是什么

浏览 0提问于2014-06-26得票数 26

回答已采纳

3回答

示例.NET应用例举了一些“代码完整”和“干净代码”以及编码方面的最佳实践？

、、

在.NET (C#)中寻找一个工作样例应用程序，它可以作为初学者学习一些编码基础和良好实践的案例研究：正确使用方法中的返回。返回空对象和返回空对象。方法调用层次结构中用于处理异常的</e

浏览 4提问于2011-06-16得票数 0

回答已采纳

2回答

PHP - exec awk或fread读取非常大文件上的列的速度更快

我有一个包含绘图数据的文件。每行总共有4个坐标，数据文件可以超过1 GB。比方说，我想要获取数据文件中的第三列，哪种方法应该考虑良好的实践和更快的速度？data = file("data");foreach($data as $line)此外，由于服务器不允许读取大文件，因此我必须使用fread将文件分成

浏览 1提问于2013-07-22得票数 2

回答已采纳

2回答

在从处理许多小数据文件迁移到ruby中的几个大数据文件时，我应该记住什么？背景：我是一位生物信息学家，他正在处理下一代测序数据，每次运行都会产生大约100万个序列。之前，我将百万序列中的每一个保存到自己的文件中，并对每个序列执行了几个处理步骤，为每个序列生成了几个文件。不幸的是，拥有几百万个文件使得文件输入和输出成为一个主要的瓶颈(同时也使备份变得缓慢)。我怀疑我应该编写一个也是唯一一个处

浏览 0提问于2009-11-24得票数 2

1回答

、、、

我不知道如何使用多个目录创建可重复的数据，所以我只想解释一下我的目录的结构。file_list <- list.files(path = "C:/Users/username/

浏览 2提问于2022-02-01得票数 -1

回答已采纳

2回答

处理记录长度非常大的大型平面数据文件

我有一个从shell脚本创建的大型数据文件。下一个脚本通过多次排序和读取来处理它。这需要超过14个小时；这是不可行的。我想用一个可以在Windows或Sun Solaris上运行的程序(可能是JAVA、C或COBOL )替换这个长时间运行的脚本。我每次都必须读取一组记录，对其进行排序和处理，并写入输出排序文件，同时插入到db2/sql表中。

浏览 0提问于2010-06-11得票数 0

2回答

如何在python中有效地读写数据？

、、

我的应用程序需要定期处理数据。应用程序需要处理新数据，然后将其与旧数据合并。数据可能有数十亿行，只有两列，第一列是行名，第二列是值。以下是一个例子：a00002,2321新数据可能有新的行名或旧的行名。我想把他们合并。因此，在处理过程中，我需要读取旧的大数据文件，并将其与新的文件合并。我发现最耗时的过程是读写数据.我尝试过几种数据输入/输出方式

浏览 2提问于2020-04-05得票数 0

回答已采纳

7回答

用于处理大型CSV文件的程序

、

有没有好的程序来处理读取大型CSV文件？我处理的一些数据文件在1 GB范围内。它们有太多的行，Excel甚至无法处理。使用Access可能会有点慢，因为您必须将它们实际导入到数据库中才能直接使用它们。有没有一个程序可以打开大型CSV文件，并为您提供简单的电子表格布局，以帮助您轻松快速地扫描数据？

浏览 0提问于2008-09-04得票数 13

回答已采纳

1回答

如何在NetLogo中处理大文件？

我在NetLogo中遇到了使用大型*.csv / *.txt文件的问题。如何在NetLogo中更快地读取如此大的数据文件？NetLogo是否适合这样的任务(因为它似乎更适合教和学)？

浏览 0提问于2012-09-19得票数 3

3回答

大规模开发/交付软件的良好做法

、

在一个软件的多个版本或多个相互竞争的项目上与大型团队一起工作时，您应用了哪些实践？哪些最佳实践仍然可以被用来先完成正确的事情？是否有可用的信息:大型IT公司如何开发和管理一些大型项目，例如Oracle、WebSphere应用服务器、Microsoft、.？

浏览 0提问于2012-09-10得票数 -4

回答已采纳

2回答

读取、转换和流到Hadoop

、

我需要构建一个服务器来读取目录中的大型csv数据文件(100 to )，转换一些字段并将它们流到Hadoop集群中。将正在流的文件标记为无效，并

浏览 2提问于2015-07-17得票数 0

1回答

将48 GB csv文件中的数据导入Server

、、

我正在使用Server默认导入工具导入大小约为48 gb的大型数据文件。它继续执行良好的应用程序。13000000行插入，但之后任务失败，出现以下错误。我不能打开csv，因为它的巨大，我也不能在其中一排排移动，并分析统计。我真的很困惑如何处理这件事。 📷

浏览 0提问于2017-09-16得票数 5

回答已采纳

1回答

在Python中处理多个文本文件

、、

这是我第一次处理多个非结构化数据文件，我需要知道所做的是最好的方法还是有更好的方法。file_list = glob.glob("C:/...data['Name'] = data['Name'].apply(lambda x: " ".joi

浏览 1提问于2020-08-28得票数 0

1回答

/srv在debian系统中的正确使用

、、、

我对/srv内部的内容和在Debian上使用它的良好实践感到有点困惑。我不是在问它是否可能或者如何完成，我是在问你的经验和良好的

浏览 0提问于2013-09-23得票数 6

回答已采纳

3回答

批量读取Couchbase文档

、、

我想从Couchbase存储桶中异步读取多个文档。这是我的代码：问题是对于一个包含大量studentID的大型数据文件，获取这些studentID的所有文档将需要很长时间，因为会为每个studentID调用get()方法。是否可以将学生Is列表作为输入并返回学生列表的输出，而不是为每个studentID获取单个文档？

浏览 4提问于2018-08-13得票数 0

1回答

Git在大提交和微提交中的性能

、

所有的编码标准和良好实践都不谈，Git本身是如何在技术上处理大型提交和小提交的。例如，Git是否更聪明地将分支合并(例如减少冲突)与这两种情况中的任何一种合并在一起，垃圾收集是变得更高效，还是类似的东西？还是有什么区别？我的意思是，当代码从A修改到B时，“大型提交”只是直接将代码从A更改为B，而“小提交”有很多中间提交(例如，对于每个小的特性更改)，但最终都会出现完全相同的B。

浏览 1提问于2012-05-04得票数 8

1回答

对于`fs.readFile` IO在NodeJS线程池中工作的结果来说，感觉很奇怪

、、、、

我产生了许多相同内容和150米大小的文件。这个截图是8个文件的结果：在我的内存中，异步fs.readFile API由线程池处理。所以我把泳池的尺寸改成了1。在NodeJS事件循环中，轮询阶段将处理IO事件并为它们执行回调。因此，对于上面的代码，我们想要读取文件异步。它们同时启动，排队等待接机。因为投票的大小是1，我想我们会一个一个地阅读所有的文件，对吗？如果一个文件已读取，回调将在下一个轮询阶段执行(

浏览 0提问于2020-02-07得票数 1

1回答

是否有可能“暂停”awk来执行一些其他命令而不会失去它在文件中的位置？

、、

如果我并行地尝试多个文件，非this临时文件将迅速占用所有可用内存。我编写了一个用块处理文件的脚本:它读取100,000行数据，将适当的行提取到临时文件中，然后gzip将临时文件添加到输出文件中。输出是正确的，但到达那里是缓慢的。每次它开始循环来处理一个新的块(第6行)时，它就开始读取${HUGE_DATA_FILE}，这似乎是在浪费时间。Besides的倍数时运行--这是制作大型</em

浏览 4提问于2022-04-03得票数 1

回答已采纳

1回答

迁移到Meteor/React

、、、、

有没有人知道Meteor的可用资源，可以帮助加载大型(20MB-80MB)资产(主要是)离线使用？我目前的开发完全是使用Vanilla JS (在客户端)，我正在考虑构建一个Meteor/React版本来提高性能和进行实践。目前，我的应用程序可以在线和离线操作，并在连接到MongoDB数据库时同步数据。它最初还动态地将大型资产加载到IndexedDB中以供离线使用(实际上，视图层仅与本地数据库通信)。整个系统使用WebSockets传输除初始

浏览 10提问于2017-01-16得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

R中data.table包中fread速度落后的原因

示例.NET应用例举了一些“代码完整”和“干净代码”以及编码方面的最佳实践？

PHP - exec awk或fread读取非常大文件上的列的速度更快

从处理许多小数据文件迁移到ruby中的一些大文件。

R循环遍历目录和所有子目录中的所有文件。

处理记录长度非常大的大型平面数据文件

如何在python中有效地读写数据？

用于处理大型CSV文件的程序

如何在NetLogo中处理大文件？

大规模开发/交付软件的良好做法

读取、转换和流到Hadoop

将48 GB csv文件中的数据导入Server

在Python中处理多个文本文件

/srv在debian系统中的正确使用

批量读取Couchbase文档

Git在大提交和微提交中的性能

对于`fs.readFile` IO在NodeJS线程池中工作的结果来说，感觉很奇怪

是否有可能“暂停”awk来执行一些其他命令而不会失去它在文件中的位置？

迁移到Meteor/React

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐