并行处理将字典写入多个csv文件

文章/答案/技术大牛

发布

1回答

、、

我有一个很大的数据帧，我想根据特定列中的值将其写入不同的文件。 data.to_csvdata = np.array(df[df.iloc[:,1] == item])

浏览 3提问于2017-12-09得票数 0

回答已采纳

1回答

在循环刮板中实现多处理并附加数据

、、、

要解析的页面数量估计在60K及以上，这就是我要实现多处理的原因。def harvester(index): ....this function gather the data from the given url'''现在，我想要做的是让一定数量的工作者函数在不同的页面上并行地收集数据然后，将这些数据附加到一个位于收割机中的大字典中，或者由worker函数直接写入</e

浏览 4提问于2016-10-23得票数 0

回答已采纳

1回答

如何避免多次编写CSV头？

、、、、

我正在用循环从多个字典编写一个csv文件。其中我使用键作为标题，字典值作为条目。with open(

浏览 2提问于2021-12-29得票数 1

回答已采纳

1回答

使用python将包含多个值的FIX标记写入字典

、

我正在尝试将修复消息从.log文件导出到.csv文件。我逐行读取.log文件，将标记和值写入字典，然后将字典写入.csv文件。我遇到的问题与修复标记<128>有关，这些标记包含我无法读取并附加到字典的多个值。下面是我的代码：import time csv

浏览 70提问于2018-07-18得票数 0

回答已采纳

6回答

编写UTF-8编码CSV文件的Python

、、、

我有一个包含unicode字符串的字典列表。 def utf_8_encoder(unicode_csv_data

浏览 4提问于2011-04-30得票数 53

回答已采纳

1回答

编写从字典到多个文件的字符串，同时在Python中打开最少次数的文件

、、、

我有本字典： dict = [{'account': 'xyz', 'email':'abc@xyz.com'}, {'account': 'xyz', 'email':'zxc@vbn.com'},对于字典上的每个“帐户”，我想创建一个CSV文件，CSV文件应该拥有属于同一个帐户的每个电子邮件。因此，有多个<e

浏览 1提问于2022-01-25得票数 -1

回答已采纳

1回答

Gawk和GNU并行于一个文件？

、、

使用下面的带有Gawk 4.1的脚本来基于日期列将多个源文件转换并组合成更少的csv文件，我试图使用GNU并行来加快速度：{ gsub(/,[^0-9]|,$/, ",0", $7) # null measure

浏览 5提问于2016-08-27得票数 1

回答已采纳

3回答

在16个CPU上而不是在一个CPU上运行python脚本

、、

J XXXXX#SBATCH --cpus-per-task=16 python脚本正在扫描一个非常大的文件(~480,000,000行)，并创建一个字典，该字典稍后将作为输出文件编写： reader= csv.reader (

浏览 0提问于2021-11-21得票数 0

1回答

python，多线程，在普通文件上使用熊猫"to_csv“安全吗？

、、

这是一个时间循环，它遍历日期列表，在我的硬盘上查找与这些日期相对应的文件，对这些文件进行一些计算，然后使用以下命令输出到"results.csv“文件：我想知道是否可以为每个日期创建一个新线程，并一次在多个日期上调用while循环中的内容？self.name helperPY.h

浏览 4提问于2016-09-30得票数 2

回答已采纳

1回答

将值从字典写入csv文件

、、

我有两个csv文件需要比较并写入新的输出文件。我有这部分工作，但有一个例外。我将第一个csv文件转换为字典，然后将第二个csv文件中的列与字典键进行比较以查找匹配项。我遇到的问题是我的字典有一个具有多个值的键。当我将这些值写入新的csv文件时，我获得了一个列中的元组，但我需要

浏览 3提问于2018-02-22得票数 2

回答已采纳

1回答

NVMe并行写入

、

我有一个进程，它在一个批处理作业中将大量数据写入磁盘(~100 gb)。数据分布在100多个文件中。感谢

浏览 0提问于2022-03-04得票数 1

2回答

Pandas/Dask -写入文件的时间非常长

、、、

我有几份文件。最大的一个大约有8700万行。我还有其他的，大约500K行。我正在做的一部分是加入他们，当我试图与熊猫一起做这件事时，我得到了内存问题。所以我一直在使用Dask。执行所有的连接/应用是非常快的，但是即使我知道结果数据帧只有26行，也需要5个小时才能写出csv。我读到一些连接/应用对于Dask来说并不是最好的，但这是否意味着使用Dask会更慢？

浏览 27提问于2020-05-05得票数 0

4回答

将多个字典写入csv文件？

、、

多亏了另一个线程，我成功地用Python：作为初学者将我的字典写成了csv。dict1 = {0 : 24.7548, 1: 34.2422, 2: 19.3290}0 24.75482 19.3290当然，有很多线程试图做类似的事情，比如：，但是我的数据没有以相同的方式构造(但是…)。

浏览 3提问于2014-03-08得票数 4

回答已采纳

1回答

如何在多线程中合并数组(python)

、

我有将近7000个csv文件，总共有240万行。我写了一些代码来打开csv，做一些计算来添加新的列。最后，我想将所有这些文件vstack到一个主csv/txt文件中。我的代码示例(请原谅任何愚蠢的错误，因为这是一个示例代码)： df = pd.read_csv(file) for ii in csv

浏览 0提问于2021-06-18得票数 0

1回答

在dask.async.MemoryError上运行大数据计算时的EC2

、、、

在运行了大约24小时之后，我得到了这个结果，这大致相当于任务完成所需的时间，因此我不确定错误是否是由于内存不足、磁盘内存不足而导致的，我执行DF.to_csv()来将大的DF写入磁盘，还是熊猫/numpy一旦整个dfpath_ddf.apply()完成，就会发生一个df.to_csv()，但正如您所说的，最好定期写入磁盘。现在的问题是，我如何实现像周期性写入磁盘，比如说每200 k行？

浏览 2提问于2016-07-18得票数 1

回答已采纳

1回答

Python/Pandas dataframe:在程序停止时完成对文件的写入

、、

对于多个CSV文件，我使用pandas数据帧的to_csv()函数以并行方式将数据附加到python中的数据帧中。然而，当我停止程序运行时，一些文件被完全清空了。当我意外地停止程序时，我希望python要么完成对文件的写入，要么让它保持原样。你知道如何实现它吗？感谢您的帮助:)

浏览 22提问于2021-06-28得票数 0

2回答

并行读写文件是个好主意吗？

、、

例如：20100102.csv.20140228.csvstation_001.csv.station_999.csv 为了加快速度，我决定使用foreach和doMC包并行读取每天

浏览 3提问于2014-02-28得票数 3

回答已采纳

2回答

如何为python中的类函数并行运行for循环？

、、、

我有一个包含velocity_params函数的My_mechanism类，该函数将结果写入一个csv文件。我需要在某个范围内迭代，但迭代非常慢(一次只使用一个CPU核心)。

浏览 20提问于2019-10-08得票数 0

1回答

我正在尝试从前面使用python的请求库提取的html文件目录中提取特定信息。html的提取已经很慢了，因为我构建了一个随机等待计时器，但是现在我想迭代每个检索到的html文件，我的脚本似乎没有得到很好的优化。这是一个问题，因为我想迭代42000多个html文件，每个文件的行数都> 8000行。这可能需要很长时间。因为我从来没有遇到过这些对我的电脑要求如此高的问题，我不知道从哪里开始学习优化我的代码。我的问题是，我是否应该以更有时间效率的方式来处理这个问题呢？非常感谢你的建议。最

浏览 3提问于2021-03-07得票数 2

回答已采纳

1回答

Spring batch中的并行处理

、、

我有一个批处理，它正在执行以下操作步骤2:使用MultiResourceItemReader读取文件，进行一些处理并写入另一个数据库。这一步使用MultiResourcePartitioner并行化现在，为了获得更好的性能，我希望将步骤1和步骤2并行化，以便在步骤1完成文件<

浏览 2提问于2014-01-27得票数 1

点击加载更多