Python CSV导入在前200k行之后花费的时间太长

Python处理CSV文件时，在前200k行之后花费的时间太长，可能是由于多种原因造成的。以下是一些基础概念、可能的原因、解决方案以及优化建议。

基础概念

CSV（Comma-Separated Values）是一种常见的数据交换格式，Python中通常使用csv模块来读取和写入CSV文件。处理大型CSV文件时，效率和内存管理尤为重要。

可能的原因

I/O瓶颈：磁盘读写速度可能成为瓶颈。
内存限制：一次性加载过多数据到内存中可能导致性能下降。
解析效率：CSV解析器在处理大量数据时可能效率不高。
数据处理逻辑：在读取数据的同时进行复杂的数据处理可能会减慢速度。

解决方案和优化建议

1. 使用生成器和迭代器

避免一次性加载整个文件到内存中，可以使用生成器逐行读取文件。

import csv

def read_large_csv(file_path):
    with open(file_path, 'r') as file:
        reader = csv.reader(file)
        for row in reader:
            yield row

for row in read_large_csv('large_file.csv'):
    # 处理每一行数据
    process(row)

2. 使用Pandas的`chunksize`参数

如果你使用Pandas库，可以利用chunksize参数分块读取数据。

import pandas as pd

chunksize = 10 ** 5  # 每次读取10万行
for chunk in pd.read_csv('large_file.csv', chunksize=chunksize):
    # 处理每个数据块
    process(chunk)

3. 优化磁盘I/O

确保CSV文件存储在性能较好的磁盘上，例如SSD。如果可能，将文件放在网络存储上可能会有更好的读取性能。

4. 并行处理

如果数据处理逻辑允许，可以考虑使用多线程或多进程来并行处理数据。

from multiprocessing import Pool

def process_row(row):
    # 处理每一行数据
    return processed_row

with Pool(processes=4) as pool:
    results = pool.map(process_row, read_large_csv('large_file.csv'))

5. 使用更快的CSV解析库

考虑使用Dask或Vaex等库，它们专为处理大型数据集设计。

import dask.dataframe as dd

df = dd.read_csv('large_file.csv')
# 处理数据
processed_df = df.compute()

应用场景

数据分析：在数据科学项目中，经常需要处理数百万甚至数十亿行的数据。
日志处理：服务器日志文件通常很大，需要高效处理。
数据迁移：在不同系统之间迁移大量数据时，需要高效的导入导出工具。

总结

处理大型CSV文件时，关键是避免内存溢出和提高I/O效率。通过使用生成器、分块读取、并行处理和优化磁盘I/O，可以显著提高处理速度。根据具体需求选择合适的工具和策略，可以有效解决性能瓶颈问题。

Python CSV导入在前200k行之后花费的时间太长

、、

我有一个可以导入CSV的python导入脚本。将20k行导入到mysql数据库大约需要45秒。问题是，现在我有一个巨大的文件(400万行)，当它到达文件的第200k行时，大约需要200秒才能导入相同的20k行。我不知道这是数据库的问题还是文件读取本身的问题…下面是我的脚本： import <e

浏览 17提问于2019-09-19得票数 1

回答已采纳

3回答

如何将大量的记录(4m+)迁移到Heroku/Postgresql？

、、

我有一个来自MSSQL2008的包含400万条记录的csv文件，我想在heroku上的postgresql中导入该文件。我已经准备了一个脚本来迁移数据，但加载时间太长，我试图将其拆分成多个文件，但再次花费了太长时间。我正在尝试在本地pc上导入数据，然后将数据推送到heroku，但我同样没有那么快。

浏览 1提问于2012-05-25得票数 4

1回答

如何在使用read_csv导入数据时对数据进行检查？

、、

我正在尝试使用python中的熊猫导入一个.csv文件。我正在使用pandas.read_csv来完成这个任务。但是，我需要检查dataframe中的每一行，并将两个特定列的值放入数组中。因为我的dataframe有将近3milion(~1gb)行，所以在导入花费时间之后，可以迭代地执行它。在导入文件本身时，我可以这样做吗？修改

浏览 1提问于2017-10-04得票数 0

回答已采纳

3回答

只有当变量等于某个值(20Gb+ csv文件)时，我才能从csv文件中读取行。

、、、

我有一个大约25 csv的csv文件。我有64 of的内存。虽然我的ram可以处理这个大文件，但花费的时间太长了。另外，我不需要数据中的每一行。所以我想知道

浏览 2提问于2020-06-07得票数 2

回答已采纳

2回答

大数据导入neo4j

、

我正在导入数据--大约1200万个节点和1300万个关系。然后我看到了批处理插入方法。但是对于批处理插入方法，我必须在excel表中创建新的数据集。基本上，我是从SqlServer导入数据:首先将数据保存到csv中，然后将其导入到SqlServer neo4j中。另外，我使用

浏览 3提问于2015-04-15得票数 1

1回答

vscode intellisense在使用PyQt4时速度太慢

、、、

Intellisense建议，在编写带有python扩展的visual studio代码时，如果使用PyQt4类，则弹出时间太长(大约20秒)。我尝试了不同的文件，里面和外面的一个项目，同样的结果。即使在导入from PyQt4 import QtGui并具有继承自QtGui.QTableWidget建议的简单类的40行中，也要花费很长时间，更糟糕的是，如果您访问

浏览 0提问于2018-05-11得票数 1

回答已采纳

1回答

如何加快csv导入sql的速度？

、

这是CS50网络Project1阶段，在这里我必须导入books.csv (包含isbn，标题，作者和年份)与5000行在它。问题是导入本身花费的时间太长(大约每秒10行)，我想这是不正常的。接下来，我编写了import.py，它看起来像这样from sqlalchemy import create_engine from sqlalchemy.orm importos.ge

浏览 1提问于2019-08-15得票数 0

1回答

如何在使用PapaParse解析csv时从csv中删除空单元？

、

示例CSV：1-1,1-2,3-1,3-2,3-3| | | || 1-1 | 1-2 | || 3-1 | 3-2 | 3-3 | 我希望将所

浏览 6提问于2020-03-12得票数 0

回答已采纳

3回答

我需要从一个巨大的表中读取数据(>100万行，16个cols的原始文本)，并对其进行一些处理。逐行读取它看起来非常慢(python，MySQLdb)，实际上，我希望能够一次读取多行(可能是并行的)。我尝试运行程序的多个实例来迭代表的不同部分(例如，第一个实例将迭代第一个200k行，第二个实例将迭代行200k-400k ...)但问题是，第二个实例(以及第三个实例等等)需要花费很长时间才能到达开

浏览 1提问于2011-11-20得票数 5

1回答

Cypher合并太慢

、、、

我有一个CSV文件，大约有1500万行。我正试图用CSV IMPORT导入它们，但是太长了。当我尝试用CREATE导入它们时，它们会在相当长的时间内被导入，但这会造成大量的重复。所以，我试着用MERGE代替，但这需要很多时间。在我终止查询之前，这个查询运行了10多个小时。在此之后，我尝试导入几个专栏--在结束查询之前等待了30多分钟。下面是只运行几列的</

浏览 0提问于2016-11-14得票数 1

回答已采纳

1回答

列表与数据帧

当我这样做时，我将一个150 K的第40行csv文件导入R.：我得到：然而，返回在花费大量时间试图将我的数据转换成数据(在获得第一个结果之后)而不是列表之后，我是不是在浪费时间？

浏览 2提问于2014-02-12得票数 0

回答已采纳

8回答

如何有效利用10+计算机导入数据

、

我们有大于200,000,000行的平面文件(CSV)，我们将其导入到一个包含23个维度表的星型模式中。最大的维度表有300万行。目前，我们在一台计算机上运行导入过程，大约需要15个小时。因为时间太长了，我们想用40台电脑来做进口。如何有效地利用40台计算机进行导入。主要担心的是，在所有节点上复制维度表将花费大量时间

浏览 1提问于2011-04-12得票数 9

回答已采纳

2回答

php : csv导入到多个表花费的时间太长

、、

我正在使用csv导入库加载批量的产品到mysql数据库与codeigniter。csv文件有一些来自一个表的列名，比如name，price，还有一些来自另一个表的列名，比如categories。它将名称和价格插入到第一个表中，类别将在我们从第一个表中获得id后插入，因此类别将与产品的id一起。但处理csv文件花费的时间太长(1000个条目=2分钟)。我放入的代码是

浏览 1提问于2018-02-07得票数 0

1回答

在PySpark中使用Limit进行数据帧采样？

、、

StringType(), True), spark.read.limit(50) .schema(schema_comment)) 我有一个已定义的<

浏览 1提问于2018-09-01得票数 0

2回答

将Python包导入Azure Function花费的时间太长

、、

在我的Azure函数中，我安装并导入了一些包，比如: cv2，numpy，azure，pydocumentdb。我计算了导入这些库所需的时间，大约是20秒。谢谢。

浏览 1提问于2017-09-22得票数 0

1回答

替换csv文件的第一行并导入到SAS中

、、、

我有许多大型csv文件，必须修改第一行以删除/替换某些字符。我通过循环遍历每个文件来导入它们，创建csv的临时版本并将其导入SAS，然后将其附加到主表中。我修改csv文件并创建临时版本的部分花费了太长时间。我要做的是：for file in files: infile file delimiter = "

浏览 2提问于2022-05-24得票数 0

1回答

导入数据库后Wordpress网站加载缓慢

、、、

我最近导入了一个Wordpress数据库，在遇到一些问题之后，我成功地导入了它。然而，现在导入已经发生了，在前端似乎有一个问题，站点需要花费异常的时间来加载页面。有问题的网站：提前谢谢。

浏览 0提问于2012-08-16得票数 0

回答已采纳

2回答

带有朴素贝叶斯分类器的With open()语句需要很长时间

、、、、

我有一个csv文件，有3483行、460K个字符和65K个单词，我正在尝试使用这个语料库在Scikit-learn中训练一个NaiveBayes分类器。问题是，当我使用下面的语句时，花费了太长的时间(1个小时，没有完成)。from textblob import TextBlobimport csv withopen('train.csv

浏览 24提问于2017-02-12得票数 0

1回答

一种将CSV转换为R中稀疏矩阵的有效方法

、、

我有一个非常大的csv文件(大约9100万行，所以for循环在R中花费了太长的时间)，当我读入data.frame时，关键字之间的相似性如下：kwd1 kwd2 similarity我尝试使用sparseMatrix()，但将关键字名称转换为整数索引花费了太多时间。谢谢你的帮助！

浏览 3提问于2012-09-12得票数 1

回答已采纳

1回答

逐行追加2个csv文件时的内存问题

、、、、

我有一个较大的csv文件(大约550MB)和一个较小的csv文件(大约5mb)，我想将所有行合并到一个csv文件中。它们都有相同的标题(相同的顺序、值、列数)，显然越大的文件有更多的行。我使用的是32位的Python (不能改变它)，并且我在添加csv时遇到了问题。似乎顶部答案和顶部答案之后的

浏览 0提问于2020-04-07得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Python CSV导入在前200k行之后花费的时间太长

基础概念

可能的原因

解决方案和优化建议

1. 使用生成器和迭代器

2. 使用Pandas的chunksize参数

3. 优化磁盘I/O

4. 并行处理

5. 使用更快的CSV解析库

应用场景

总结

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

2. 使用Pandas的`chunksize`参数