R-按块读取csv并行处理它们

、、

如何按块读取CSV文件(文件太大，无法一次读入)，并使用parallel包处理所有块？假设我想按块计算一列的平均值。如果没有parallel，我会使用这样的东西： res <- read_csv_chunked(readr_example("mtcars.<em

浏览 1提问于2017-06-07得票数 3

1回答

使用带有熊猫数据的多处理地图？

、

我使用(python的)熊猫的map函数来处理一个大的CSV文件(~50G字节)，如下所示：df.to_csv("output.csv") 有什么方法可以使用并行化吗？也许使用多处理</

浏览 4提问于2014-05-08得票数 0

1回答

谓词分裂与并行处理

、、

我有一份有一百万到两百万份的CSV档案。这些记录按id分组。 1；1；1；2；..。3；..。..。我想要的是把这些记录作为组来处理。我读取所有1组记录过程，并将它们转换为业务模型，并将其保存到我的数据库中。我需要并行完成这项工作，以加快处理速度。如果可能的话，我想在1的同时处理2和3。我已经开始使用StepBuilderFactory#chunk()了，但是这给了

浏览 3提问于2021-03-15得票数 0

回答已采纳

1回答

在继续之前，等待以前的块完成处理

、、、

从文件夹中获取一组CSV文件步骤2和步骤3分离的原因是将读取文件所涉及的问题与处理文件的问题分开。我可以用三个数据流块来建模。我遇到的问题是，在所有文件被持久化到数据库之前，我不希望块3启动。我需要一些方法来确定所有在第1块中拾取的文件都被块2处理过。块2将其MaxDeg

浏览 5提问于2014-12-29得票数 1

回答已采纳

1回答

在数据处理中，任务并行性的好例子是什么？

、、

为了在分布式设置中处理数据，可以执行任务并行化或数据并行化。到目前为止，我只遇到了数据并行化。例如，对我来说，MapReduce是数据并行化，因为您会将数据划分为不同的映射器。像桶排序这样的算法也是数据并行化，因为您

浏览 0提问于2019-01-07得票数 0

回答已采纳

1回答

是否有一种方法可以使用并行处理从文件中读取块并按顺序将字符串连接在一起？

、、、

我看到了许多关于如何使用并行方式添加数字的例子，但是我还没有发现任何可以演示并行读取流中的多个块(例如，每个块512字节)，并将结果连接在一起的例子。我想知道是否有可能读取一个流的多个部分，并将它们按正确的顺序连接在一起。但是，考虑使用类似于的东西，它可能会将它们按顺序加入。我也不知道如何在上面的上下文中应用它来替换where循环。我如何同时读取这些块，并将它们附

浏览 4提问于2017-01-01得票数 1

回答已采纳

1回答

如何在R中并行读取同一连接中的多个块？

、、

我有一个.bz2文件，我想读取它并进行一些处理。无法将文件加载到内存中。我想在我读取的块上做一些计算，它们可以相互独立地执行，因此我想我应该尝试并行执行。con = file("myfile.bz2", "r") function(x) parLapply(cl, list(co

浏览 3提问于2020-06-03得票数 0

1回答

mapreduce将如何有效地将这样的文件写入HDFS (可能是并行的)？以后也可以以并行的方式阅读其中的内容？我的理解是，HDFS只是基于块的(例如128 My )。因此，为了编写第二个块，您必须已经编写了第一个块(或者至少确定哪些内容将转到块1)。假设这是一个CSV文件，文件中的一行很有可能跨越两个块--我们如何将这种CSV读取到mapreduce中的不同映射程序？它是否需要做一些智能逻辑来读取</em

浏览 0提问于2018-11-15得票数 0

回答已采纳

7回答

如何优化这个文件系统I/O绑定程序？

、、、

我有一个python程序，可以这样做：从第一步读取</e

浏览 7提问于2009-10-20得票数 3

回答已采纳

2回答

固定顺序的Spring Batch多线程作业

、、、

我创建了一个spring批处理作业，它读取平面CSV文件的块(提交级别= 10)，并将输出写入另一个平面文件。简单明了。为了测试本地伸缩性，我还使用一个包含10个线程池的TaskExecutor配置了这个微线程，从而通过使用多线程步骤模式引入了并行性。正如预期的那样，这些线程并发地读取项，直到它们的块被填满，并且块被写入输出文件。同样，正如预期的那样，由于这种并发读取，项目的顺序也发生了变化。

浏览 3提问于2011-08-19得票数 3

回答已采纳

1回答

spring batch的多线程数据处理

、、

我的任务是从数据库中读取事务列表，按帐号和日期对它们进行分组，然后为特定帐户number.Once的事务集做一些处理。我读取数据并按帐号进行分组，我可以并行处理这些块。每次这样的操作都会更新账户余额。

浏览 0提问于2011-03-31得票数 1

4回答

什么时候简单的并行化不能提供加速？

、、、

我有一个简单的程序，它将一个数据集(一个CSV文件)分成4个块，读取每个块，执行一些计算，然后将输出附加在一起。可以将其视为一个简单的map-reduce操作。处理单个区块需要使用大约1 1GB的内存。我在一台四核电脑上运行这个程序，它有4 4GB的内存，运行Windows XP。我碰巧用R对它进行了编码，但我不认为它是相关的。我写了两个版本。一个版本按顺序处理每个块。另一个版本一次并行处理两个块

浏览 0提问于2010-02-25得票数 3

3回答

hadoop是否并行地创建InputSplits？

、、、

我想使用Hadoop处理文件。我知道hadoop使用FileInputFormat来创建分配给映射任务的InputSplits。我想知道hadoop是按顺序还是并行地创建这些InputSplits。我的意思是，它是按顺序读取单个主机上的大型文本文件，然后创建拆分的文件，然后分发给datanodes，还是并行读取块(例如50 in )？hadoop是否在多个主机上复制大文件，然后再将其拆分？是否建议我将文件分割成50 to块以加快<em

浏览 2提问于2015-08-27得票数 1

回答已采纳

2回答

读取HDFS文件拆分

、、、

使用HDFS的Java，一次按顺序读取每个块的文件很简单。这是一个。Map-还原和其他处理器不涉及。这是严格的文件系统级操作。

浏览 3提问于2015-06-26得票数 1

回答已采纳

1回答

如何使用Dask从google云存储中读取多个大CSV文件块而不同时重载内存

、、、、

我试图从google存储中读取大量的csv文件(多个文件)。我使用Dask分发库进行并行计算，但我面临的问题是，虽然我提到了块大小(100 my )，但我不知道如何按分区读取分区并将其保存到postgres数据库中，这样我就不想让内存超载。(): df = dd.read_csv('gs://mybucket/renish/*.csv&

浏览 0提问于2019-06-30得票数 2

回答已采纳

3回答

如何在多个线程中并行处理一个文件中的数据，并将它们写入另一个文件中，同时保持原始数据顺序(C#)

、、、

我有一个巨大的文件，我想按块读取，以某种方式在几个线程中并行处理这些块，以提高处理速度，然后以读取原始数据块的相同顺序将处理后的数据写入另一个文件(即，确保从输入文件读取的第一个数据块将首先被处理并保存在输出文件中，第二个块将被处理并作为第二个数据块保存到输出文件中，等等)。我在考虑以某种方式实现生产者-消费者

浏览 2提问于2020-02-26得票数 1

2回答

python中的多进程，多进程运行相同的指令

、、

我在Python中使用多进程进行并行化。我正在尝试使用pandas对从excel文件中读取的数据块进行并行处理。from multiprocessing import Processprint os.getpid(); df = pd.read_csv('train.csv', sep=',&#

浏览 0提问于2016-04-30得票数 1

1回答

使用大文件块对文件进行排序

、、

现在，如果我们按块读取文件，并且只考虑1000行，那么如果我们要对该列周围的表进行重新排序，则可能会用column=X中的相同值处理其他行。那么我们如何才能解决这个问题呢？我们应该使用合并排序，将每个块并行地分配给合并排序算法，然后重新组合结果吗？我看不出有什么办法对付熊猫，但我不确定。import pandas as pdbatch_no = 1 for chunk in pd.read_csv('data.cs

浏览 2提问于2021-10-09得票数 1

回答已采纳

1回答

mapReduce与序贯法

、

Hadoop支持顺序搜索，而不是我们可以说hadoop处理数据是并行的，在遍历每个节点时，搜索与处理有何不同？如果我错了，请纠正我:是否每个节点的块是按顺序读取的，但是集群中的许多节点是并行处理的。我的意思是，两个作业在两个不同的节点上并行运行，每个作业同时对每个节点的所有相关块进行顺序搜索。例如: Node1: A块B，C块Node2: D块，E块</e

浏览 2提问于2013-10-23得票数 0

回答已采纳

1回答

并行处理文件中的数据

、、

我面临着从一个大的csv文件中并行计算数据的问题。问题是，从文件中读取数据不能并行，但可以将文件中的大块数据传递给并行计算。我有一个从文件中读取数据块的生成器。大约需要3秒。从文件中获取一块数据。这块数据被处理，大约需要2秒。我从文件中获得了50个数据块。等待下一个文件块时，我可以“并行”计算前一个块。

浏览 0提问于2017-02-12得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用带有熊猫数据的多处理地图？

谓词分裂与并行处理

在继续之前，等待以前的块完成处理

在数据处理中，任务并行性的好例子是什么？

是否有一种方法可以使用并行处理从文件中读取块并按顺序将字符串连接在一起？

如何在R中并行读取同一连接中的多个块？

Hadoop :读写并行性？

如何优化这个文件系统I/O绑定程序？

固定顺序的Spring Batch多线程作业

spring batch的多线程数据处理

什么时候简单的并行化不能提供加速？

hadoop是否并行地创建InputSplits？

读取HDFS文件拆分

如何使用Dask从google云存储中读取多个大CSV文件块而不同时重载内存

如何在多个线程中并行处理一个文件中的数据，并将它们写入另一个文件中，同时保持原始数据顺序(C#)

python中的多进程，多进程运行相同的指令

使用大文件块对文件进行排序

mapReduce与序贯法

并行处理文件中的数据

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐