在Python中使用Pandas提高处理大型csv文件的速度

在Python中使用Pandas可以显著提高处理大型CSV文件的速度。Pandas是一个强大的数据分析工具，它提供了高性能、易用的数据结构和数据分析工具，特别适用于处理结构化数据。

Pandas提供了两个主要的数据结构：Series和DataFrame。Series是一维标记数组，类似于带标签的数组，而DataFrame是二维标记数据结构，类似于表格或电子表格。这些数据结构使得在Python中处理大型CSV文件变得更加高效和方便。

使用Pandas处理大型CSV文件的主要优势包括：

高性能：Pandas使用了底层的NumPy库，通过向量化操作和优化的算法实现了高性能的数据处理。相比于传统的基于循环的处理方式，Pandas可以显著提高处理速度。
灵活的数据操作：Pandas提供了丰富的数据操作和转换方法，可以轻松地进行数据清洗、筛选、排序、聚合等操作。这些操作可以帮助我们快速地处理和分析大型CSV文件。
内存优化：Pandas可以有效地管理内存，通过压缩数据存储和延迟加载等技术，可以处理比可用内存更大的数据集。这对于处理大型CSV文件尤为重要。
强大的索引和标签功能：Pandas提供了灵活的索引和标签功能，可以根据行、列的标签进行数据选择和操作。这使得在处理大型CSV文件时可以更加方便地进行数据的定位和提取。

在使用Pandas处理大型CSV文件时，可以结合使用一些腾讯云的相关产品，例如：

腾讯云对象存储（COS）：可以将CSV文件存储在腾讯云的对象存储中，提供高可靠性和可扩展性的存储服务。可以使用腾讯云的Python SDK来进行文件的上传和下载操作。
腾讯云云服务器（CVM）：可以在腾讯云的云服务器上运行Python程序，进行大型CSV文件的处理。云服务器提供了高性能的计算资源，可以加速数据处理过程。
腾讯云弹性MapReduce（EMR）：可以使用腾讯云的弹性MapReduce服务进行大规模数据处理和分析。EMR提供了分布式计算框架，可以并行处理大型CSV文件，提高处理速度。

总结起来，使用Pandas可以提高处理大型CSV文件的速度和效率。结合腾讯云的相关产品，可以实现高性能、可靠的大数据处理方案。

如何在RNN TensorFlow中使用超大数据集？

、、、、

我有一个非常大的数据集: 7.9 GB的CSV文件。其中80%作为训练数据，其余20%作为测试数据。当我加载训练数据(6.2 GB)时，我的MemoryError是在第80次迭代(第80个文件)。下面是我在加载数据时使用的脚本： import pandas as pd import os col_names = ['duration', 'service', 'src_bytes', 'dest_bytes', 'count', 'same_srv_rate', 'serr

浏览 1提问于2017-07-25得票数 6

回答已采纳

1回答

与从CSV- SScursor导出和导入相比，Python MySQLdb文件速度较慢。加速是可能的吗？

、、、、

作为构建数据仓库的一部分，我必须查询源数据库表中大约75M行。我想对75M行做的是一些处理，然后将结果添加到另一个数据库中。现在，这是相当多的数据，我主要通过两种方法取得了成功： 1)使用MySQL的"SELECT ... INTO“功能将查询导出到CSV文件，并使用python的fileinput模块读取它，以及 2)使用MySQLdb的SScursor连接到MySQL数据库(默认游标将查询放在内存中，杀死python脚本)，并以大约10k行的块来获取结果(这是我发现的最快的块大小)。第一种方法是“手动”执行SQL查询(大约需要6分钟)，然后使用python脚本读取csv文件并对

浏览 0提问于2013-07-10得票数 6

回答已采纳

3回答

有没有一种更快的方法来写入或读取大约100万行的pandas数据帧

、、、、

我正在尝试对我的问题进行非常具体的说明。我有一个包含一些200+列和1mil+行的数据帧。我正在读取或写入到excel文件，如果我记录正确，这需要超过45分钟。 df = pd.read_csv("data_file.csv", low_memory=False, header=0, delimiter = ',', na_values = ('', 'nan')) df.to_excel('data_file.xlsx', header=0, index=False) 我的问题是，有没有什么办法可以让我们更快地读

浏览 0提问于2018-07-12得票数 1

1回答

Python模块对pandas.read_csv和Python对pandas.read_excel

、、、

在python中，我们可以使用csv module或pandas.read_csv函数来处理csv文件。对于Excel文件，我们可以使用xlrd module或pandas.read_excel函数。我经常使用熊猫，我觉得read_csv和read_excel功能对我来说是有用的。有人能解释一下这些方法的优缺点吗？

浏览 4提问于2017-06-01得票数 3

1回答

Python -垃圾收集非常慢，无法禁用gc

、、、、

我正在开发一个使用pandas数据帧和大型字典的程序。数据帧是从CSV读取的，该CSV大约是。700MB。我在Windows上使用Python 3.7.3 我注意到我正在运行的程序非常慢，并且在算法的每一次循环后都会变慢。该程序读取数据帧的每一行，检查df每一行的每一项上的一些条件，如果满足这些条件，它就将该项及其状态存储在字典中。这本字典可能会变得很大。我尝试过用CProfile分析我的代码，我发现garbage-collector函数占用了大约90%的执行时间。我也看到过通过调用gc.disable()来解决类似的问题，但这对我没有任何帮助。奇怪的是(我不知道这是否正常)，但如

浏览 19提问于2019-06-18得票数 0

1回答

如何在CSV中查找引发错误的行："ValueError:未能将字符串转换为浮动“

、、

我使用以下命令将CSV导入到中： df=pandas.read_csv("import.csv", names=["Year", "Month", "Day", "Time", "ColA"], encoding='iso-8859-1') 但是，Pandas将ColA作为数据类型对象导入。我尝试使用它将该列转换为浮动： df['ColA'] = df['ColA'].astype(float) 但是，会引发此错误： ValueError: co

浏览 0提问于2018-02-19得票数 2

回答已采纳

6回答

熊猫中的大而持久的DataFrame

、、

作为SAS的长期用户，我正在尝试切换到python和pandas。然而，当今天运行一些测试时，我很惊讶在尝试pandas.read_csv()一个128mb的csv文件时，python耗尽了内存。它有大约200,000行和200列，主要是数字数据。使用SAS，我可以将csv文件导入到SAS数据集中，其大小可以和我的硬盘一样大。在pandas中有类似的东西吗？我经常处理大文件，无法访问分布式计算网络。

浏览 6提问于2012-07-24得票数 96

回答已采纳

2回答

用于将csv加载到Postgres数据库的pandas.read_csv与其他CSV库

、、、、

我是Python的一个相对新的用户。解析和处理CSV并将其加载到本地Postgres数据库(用Python)的最佳方法是什么？有人建议我使用CSV库来解析和处理CSV。具体而言，手头的任务是：数据可能有错误(某些行可能无法解析)，数据可能被复制，数据可能非常大。为什么我不能在这里使用呢？使用CSV库会使解析和加载到本地Postgres数据库更容易吗？特别是，如果我只使用熊猫，如果行是不可解析的，如果数据很大，或者数据被复制，我会遇到问题吗？(最后一点，我知道熊猫提供了一些相对清洁的解决方案。) 我觉得pandas.read_csv和在这里可以为我做很多工作，但我不确定使用CSV库

浏览 2提问于2016-03-14得票数 3

回答已采纳

1回答

C++中的快速CSV解析器

、、

我正在尝试读取一个包含20k+行的.csv文件，每行都有大约300个字段。我使用自己的代码逐行读取它，然后将行分隔为字段，并将字段转换为相应的数据类型(如整数、双精度等)。然后，这些数据通过它们的构造函数传递给类对象。然而，我发现它的效率并不是很高。读取这些20k+行并创建20k+对象大约需要1分钟。我用谷歌搜索了一下快速的csv解析器，发现有很多选择。我试过其中的一些，但对时间性能不是很满意。有没有更好的方法来读取大型.csv文件？在此之前，非常感谢您。

浏览 0提问于2013-08-14得票数 1

3回答

如何使用python pandas在本地系统Jupyter Notebook中读取两个更大的5 5GB文件？如何在本地连接两个数据帧进行数据分析？

、、、、

如何使用python pandas在本地系统Jupyter Notebook中上传两个大(5 5GB)的csv文件。请建议任何配置来处理用于数据分析的大型csv文件？ Local System Configuration: OS: Windows 10 RAM: 16 GB Processor: Intel-Core-i7 代码： dpath = 'p_flg_tmp1.csv' pdf = pd.read_csv(dpath, sep="|") Error: MemoryError: Unable to allocate array 或 pd.read_c

浏览 1提问于2020-01-24得票数 4

2回答

Julia Dataframes vs Python pandas

、、、

我目前正在使用python pandas，我想知道是否有一种方法可以将熊猫的数据输出到julia Dataframes中，反之亦然。(我想你可以用Pycall从Julia调用python，但我不确定它是否能处理数据帧)有没有办法从python调用Julia并让它接收panda的数据帧？(不保存为其他文件格式，如csv) 什么时候使用Julia Dataframes比使用Pandas更有优势，除了非常大的数据集和运行许多循环的东西(比如神经网络)？

浏览 0提问于2014-04-27得票数 16

回答已采纳

1回答

熊猫read_csv真的比蟒蛇开放得慢吗？

、、、、

我的要求是从csv文件中删除重复的行，但是文件的大小是11.3GB。所以我把熊猫和python文件生成器做了标记。 Python文件生成器： def fileTestInPy(): with open(r'D:\my-file.csv') as fp, open(r'D:\mining.csv', 'w') as mg: dups = set() for i, line in enumerate(fp): if i == 0: continue

浏览 9提问于2016-10-08得票数 0

回答已采纳

2回答

Python pandas没有属性ols - Error (滚动OLS)

、、、、

在我的评估中，我希望使用以下Python脚本对该URL：中的数据集运行滚动的1000窗口OLS regression estimation。 # /usr/bin/python -tt import numpy as np import matplotlib.pyplot as plt import pandas as pd from statsmodels.formula.api import ols df = pd.read_csv('estimated.csv', names=('x','y')) model = pd.stats.o

浏览 1提问于2017-06-23得票数 6

3回答

如何加速将数据帧导入pandas

、、

我理解pandas导入csv文件相对较慢的原因之一是，在猜测类型之前，它需要扫描一列的整个内容(请参阅关于pandas.read_csv的low_memory选项的讨论)。我的理解正确吗？如果是这样的话，什么样的格式才是存储数据帧的好格式，哪些格式显式地指定了数据类型，这样pandas就不必去猜测了(SQL暂时不是一个选项)？有什么特别的选择吗？我的数据帧有浮点数、整数、日期、字符串和Y/N，所以只支持数字值的格式是行不通的。

浏览 0提问于2017-11-15得票数 2

4回答

为什么numpy/熊猫解析长行csv文件的速度这么慢？

、、、、

我正试图有效地将csv文件解析为numpy数组(或数组列表，或任何类似的内容)，每行大约有20,000条条目(和几千行)。我发现了许多其他的问题，还有的博客文章，这表明熊猫的csv解析器非常快。然而，我已经对熊猫、numpy和一些纯python方法进行了基准测试，看起来简单的纯python字符串拆分+列表理解大大超过了其他所有东西。这里发生了什么事？是否有任何csv解析器会更有效？如果我改变输入数据的格式，会有帮助吗？下面是我正在对其进行基准测试的源代码( sum()只是为了确保任何懒散的迭代器都被迫对所有内容进行评估)： #! /usr/bin/env pytho

浏览 5提问于2015-04-16得票数 11

回答已采纳

1回答

用Python读取和处理具有有限RAM的多个csv文件

、、、

我需要读取数千个csv文件，并将它们输出为Python中的一个csv文件。每个原始文件将用于在最终输出中创建单个行，其中列是对原始文件行的一些操作。由于文件的合并大小，这需要许多小时的处理，而且也不能完全加载到内存中。我能够在每个csv中阅读并从内存中删除它来解决RAM问题。但是，我目前正在迭代地读取和处理每个csv (在Pandas中)，并将输出行附加到最后的csv中，这似乎很慢。我相信我可以使用多进程库让每个进程读取并处理自己的csv，但不确定是否有比这更好的方法。在具有RAM限制的情况下，在Python中完成此操作的最快方法是什么？例如，在最终输出csv中，ABC.csv和DE

浏览 5提问于2022-10-18得票数 0

回答已采纳

1回答

Python -批量读取非常大的文本文件时的无限循环

、、、

好了，我有一个很大的(8 GB+) txt文件，其中包含很可能来自大型机b/c的遗留数据。它是所有固定字段，必须逐行解析&逐个字符解析。逐行读取文件在小样本上工作得很好，但不会扩展到超过几百MB。从本质上讲，我希望分批读取txt文件，假设每批读取500万行，然后逐行处理每批。这就是我用Python编写的代码，但由于某些原因，当在较小的文件上进行测试时，下面的代码以无限循环结束。我有点困惑的是，中断实际上从来没有被触发过，快照总是被覆盖。你知道怎么解决这个问题吗？ # Python 3.x def convert_txt_to_csv(path_to_txt, path_to_s

浏览 21提问于2020-04-28得票数 0

3回答

CSV到Server:批量导入噩梦( to和/或Pandas)

、、、、

我试图将.CSV文件大容量插入Server，但没有成功。一些背景： 1. I需要在Server (2017) DB中插入1600万条记录。每条记录有130列。我在.CSV中有一个字段，该字段来自我们的一个供应商的API调用，我不允许提到这个字段。我有整数、浮点数和字符串数据类型。 2. --我尝试了通常的方法：BULK INSERT，但是无法传递数据类型错误。我发了一个问题，但无法使它工作。 3.我试着用python做实验，并尝试了我能找到的所有方法，但是pandas.to_sql警告说它非常慢。我被数据类型和字符串截断错误困住了。与BULK INSERT不同。 4.没有太多的选项，我尝试了

浏览 6提问于2020-10-18得票数 3

回答已采纳

1回答

将大型csv转换为xml文件

、、、

我有一个大的CSV文件(30 CSV)，有7列。会不会有另一种格式来保存文件，这样文件的大小就会小得多，因为前几列对许多行具有相同的值？我在考虑一种XML文件类型。如何将此大型csv文件转换为xml文件？我找到的解决方案涉及到pandas包。但由于数据量很大，使用pandas在我的8 8gb内存笔记本电脑上是行不通的。 ?

浏览 35提问于2020-08-14得票数 0

1回答

熊猫记忆使用不一致

、、

当我使用Pandas DataFrame时，内存有一些不一致之处。下面是我的代码框架： import pandas as pd import numpy as np columns_dtype = {'A': np.int16, 'B': np.int8, ...} df = pd.read_csv('my_file.csv', dtype=columns_dtype) 这基本上就是用熊猫读取csv文件，同时控制列数据类型。但是，当我在寻找有多少内存分配给我的程序时，信息似乎不一致。信息1: df.info(memory_usage=

浏览 1提问于2018-09-04得票数 6

2回答

使用带有过滤器的pandas写入csv

、、、

我正在使用pandas库通过Python加载一个csv文件。 import pandas as pd df = pd.read_csv("movies.csv") 然后，我检查列中的特定值或语句，例如： viewNum = df["views"] >= 1000 starringActorNum = df["starring"] > 3 df["title"] = df["title"].astype("str") titleLen = df["title"].str.l

浏览 0提问于2017-02-12得票数 2

2回答

通过Pandas插入CSV到SQLITE:如何避免内存错误？

、、、

我在尝试将pandas数据帧从CSV写入SQLITE数据库时遇到内存错误。CSV文件有430 MB和6,000,000行。对于较小的文件，它完全可以正常工作。然而，我想知道如何避免较大文件的内存错误。按块读取工作正常，并正确地打印了20000行块中的6000000行。但是，该脚本希望将全部6,000,000行代码转移到SQLITE database+table中，并给出以下错误： Traceback (most recent call last): File "C:/SQLITELOAD1.py", line 42, in <module> .ren

浏览 0提问于2020-03-06得票数 2

2回答

如何加快大型xlsx文件的导入？

、、、、

我想要处理一个大的200 15 (xlsx)文件，其中包含15个工作表和100万行，每个行有5列)，并根据数据创建一个熊猫数据。Excel文件的导入非常慢(最多10分钟)。不幸的是，Excel导入文件格式是强制性的(我知道csv更快.)。如何加快将一个大型Excel文件导入熊猫数据文件的过程？如果可能的话，如果可能的话，把时间降到1-2分钟是很好的，这样就更能忍受了。到目前为止，我已经尝试过：选项1- Pandas I/O read_excel %%timeit -r 1 import pandas as pd import datetime xlsx_file = pd.ExcelF

浏览 1提问于2019-04-20得票数 12

1回答

您能在Swagger中为一个PlainTextResponse API显示FastAPI吗？

现在，我只能通过在浏览器中手动输入API路径来查看PlainTextResponse。但是，我希望能够在自己的Swagger中查看PlainTextResponses。每次我尝试请求一个OpenAPI时，似乎都会无限期地加载PlainTextResponse 以下是一个示例： from fastapi import FastAPI from fastapi.responses import PlainTextResponse import pandas as pd app = FastAPI() @app.get("/plain_text", response_class=

浏览 13提问于2022-07-04得票数 -1

回答已采纳

2回答

python中的多进程，多进程运行相同的指令

、、

我在Python中使用多进程进行并行化。我正在尝试使用pandas对从excel文件中读取的数据块进行并行处理。我是多处理和并行处理的新手。在简单代码的实现期间， import time; import os; from multiprocessing import Process import pandas as pd print os.getpid(); df = pd.read_csv('train.csv', sep=',',usecols=["POLYLINE"],iterator=True,chunksize=2); print &

浏览 0提问于2016-04-30得票数 1

1回答

如何在处理大量数据的同时处理内存异常？

、、

我试图开发一个python脚本，它以块的形式读取一个大型CSV文件(大约1.2GB的历史数据)，并执行以下步骤：备份文件提取前一天事务的新记录，附加到原始/基本CSV文件，并将数据存储在数据中。对大数据执行数学操作将大数据转换为CSV，并存储在同一位置，以便进行nex日间处理。类似的过程也会在第二天进行等等. 在处理上面的步骤3时，我得到了内存异常错误(可能步骤1&2会消耗大部分内存，最大-3GB有限的空间)。即使我扩展了服务器中的空间，我也预见到了一个问题，因为我的输入文件大小每天都会增加。我需要每天浏览历史数据，进行数学操作和日常事务处理，这样就无法避免存储/访问包含历

浏览 0提问于2019-09-17得票数 3

1回答

cuDF -不利用GPU核心

、、、

下面是用cuDF编写的python代码，以加速这个过程。但与我的4核心本地机器cpu相比，我没有看到任何速度上的差异。GPU配置为4 x NVIDIA Tesla T4 def arima(train): h = [] for each in train: model = pm.auto_arima(np.array(ast.literal_eval(each))) p = model.predict(1).item(0) h.append(p) return h for t_df in pd.read_csv(

浏览 1提问于2020-04-21得票数 0

1回答

读取大型csv文件python和panda

、、

我有一个Python服务器，它连接到sftp服务器，并在Python服务器中提取CSV文件(在nodeJS服务器中运行一个For循环，每次有不同的连接到来时)-我正在用panda读取CSV文件-就像这样 file = sftp.open(latestfile) check = pd.read_csv(file).to_csv() 最后，我返回包含CSV文件数据的check，然后在nodeJS服务器中进行解析。这个过程真的很好，我设法以这种方式获得了很多数据--但是当他试图读取一个很大的CSV文件(22MB)时，我的Python服务器真的崩溃了，我在网上搜索并试图

浏览 1提问于2020-05-06得票数 1

1回答

内存不足错误-Android

、、

目前，我正在开发一个Android应用程序，在这个应用程序中，我需要将数据插入到数据库的Csv文件中。Csv文件有超过250万个数据。有没有办法直接将Csv文件转换成.db格式？信息: Csv文件的大小是8 Mb。我试过的是：最初，我尝试在我的应用程序中解析Csv文件，插入1000个数据并成功地完成它。但是，在检索数据并将其存储在列表中时，我得到了OutOfMemoryError。有什么办法解决吗？

浏览 5提问于2014-02-18得票数 1

1回答

在Jupyter Notebook中读取一个巨大的.csv文件

、、、、

我正在尝试从Jupyter Notebook (Python)的.csv文件中读取数据。 .csv文件大小为8.5G，7000万行，30列当我尝试读取.csv时，我得到了错误。以下是我的代码 import pandas as pd log = pd.read_csv('log_20100424.csv', engine = 'python') 我也试过使用pyarrow，但它不起作用。 import pandas as pd from pyarrow import csv` log = csv.read('log_20100424.csv

浏览 136提问于2020-04-24得票数 1

2回答

Python - Web抓取

、、

我对python很陌生，我正在尝试从下面的站点抓取数据。虽然这段代码适用于不同的站点，但我无法让它适用于nextgen。有谁想过为什么吗？下面是我的代码和我得到的错误 import pandas as pd import numpy as np import html5lib urlwk1 = 'https://nextgenstats.nfl.com/stats/receiving/2020/1' urlwk2 = 'https://nextgenstats.nfl.com/stats/receiving/2020/2' df11 = pd.read_ht

浏览 4提问于2020-09-27得票数 1

2回答

将现有数据帧提取到数据帧数组中

、、、

我有一个原始数据帧，读作df。我想将df分成几个部分，每个部分保存到一个单独的csv中。我的代码： df = pd.read_csv('text.csv') for i in range(1, 10): df[i] = df.iloc[257*(i-1):256+257*(i-1), : ].copy() df[i].to_csv('%d.csv' % i, index=None, header = False) 但它给我的错误是： line 3080, in get_loc return self._engine.g

浏览 0提问于2021-05-18得票数 0

3回答

在python中读取包含大量列的文件

、

我有一个巨大的文件csv文件，大约有400万列和大约300行。文件大小约为4.3G。我想读取这个文件，并对数据运行一些机器学习算法。我尝试过在Python语言中通过pandas read_csv读取该文件，但即使读取一行也要花费很长时间(我怀疑这是因为大量的列)。我检查了几个其他选项，如numpy fromfile，但似乎都不起作用。有没有人能推荐一些在python中加载多列文件的方法？

浏览 20提问于2017-06-30得票数 1

回答已采纳

3回答

将数据大容量加载到Neo4J的最佳方法

我们正试图将数以百万计的节点和关系加载到Neo4j中。我们目前正在使用下面的命令使用带有来自"file:customers.csv“的头的定期提交LOAD CSV作为行创建(:Customer ... 但这花了我们很多时间。我确实看到了一个直接解释修改neo4j文件的链接。但是上面的链接看起来很老了。想知道上面的流程是否仍然有效？在“ne4j-spark-connector”Github链接中有一个问题。它没有完全更新。其中最好的方法是什么？

浏览 3提问于2017-04-13得票数 1

3回答

在熊猫中打开一个损坏的csv文件的策略

、

我有一堆csv文件，我正在Pandas中加载这些文件，但是有一个文件出错了--我是这样打开它的： df = pd.DataFrame.from_csv(csv_file) 错误：文件"/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/pandas/core/frame.py"，第1268行，from_csv encoding=encoding，tupleize_cols=False)文件"/Library/Frameworks/Python.framework/

浏览 5提问于2014-01-16得票数 1

2回答

日期包含点作为小数点，浮点数包含逗号作为小数分隔符的read_csv？

、

我有一个csv文件，其布局如下所示： date a b 2019-08-28 10:43:41.098 -1,9 -2,5 当我使用以下命令将其读入pandas时 df = pd.read_csv(file,sep=None,parse_dates[0],engine='python',decimal=',') 我看了一下结果数据帧，Pandas将date识别为dtype: datetime64[ns]，而将其他列识别为dtype: object。我已经尝试完全跳过decimal=','部分，但它没有帮助。我可以尝试将逗号单独

浏览 21提问于2019-09-05得票数 0

2回答

在Unix中操作CSVs最好的本地Unix工具来学习

、、、

我是Unix环境中的新手。我希望学习如何操作CSV文件(例如:添加新列、按索引从一个CSV获取值以及在一个新的CSV文件中附加值等等)。在Unix。我知道Python是可以使用的，但是系统限制我使用Pandas、Numpy等。我希望学习本地Unix工具来解析和操作CSV文件。我读过awk，sed可以使用更简单的CSV文件，但是对于复杂的CSV文件可能会变得混乱(但是我很喜欢您的输入)。我正在寻找一些专家的建议，关于本机Unix工具的CSV操作，不需要任何类型的安装。我应该关注什么工具？提前谢谢。

浏览 0提问于2022-01-05得票数 0

回答已采纳

2回答

在大型CSV文件中查找#行

、、、、

其目的是查找大型CSV文件中的总行数。我现在使用Python Dask来查找它，但由于文件大小约为45G，因此需要相当长的时间。带有wc -l的Unix cat似乎表现得更好。所以问题是- dask / pandas read_csv有没有什么调整，让它能更快地找到总行数？

浏览 16提问于2020-09-05得票数 1

3回答

使用Python读取大型csv文件

、、、、

我使用Dask读取了2.5 to的csv文件，Python给了我错误。这是我写的代码： import pandas as pd import numpy as np import time from dask import dataframe as df1 s_time_dask = time.time() dask_df = df1.read_csv('3SPACK_N150_7Ah_PressureDistributionStudy_Data_Matrix.csv') e_time_dask = time.time() 以下是我从Python得到的错误： dask_df

浏览 0提问于2021-06-17得票数 0

1回答

使用csv和/或pandas模块在Python中删除行(数据编排

、、、

在将csv文件放入数据库之前，我有一组csv文件正在尝试清理。这些文件以制表符分隔，有两种格式。一种格式如下所示： Some text string Field1\tField2\tField3\tField4 Some text string总是以相同的顺序开始，所以我想用它来标识需要修改的文件。从那里我可以删除前两行(第一行和接下来的空行)。我已经能够成功地找到以这个字符串开头的文件，但是我只能通过迭代每一行来实现，对于我要做的事情来说，这不是最好的方法。其中csvFiles是目录中csv文件的列表：在csv模块中： for csvFile in csvFiles: wit

浏览 10提问于2018-08-11得票数 0

回答已采纳

1回答

什么是华生-NLU的速度基准？

、

我正在尝试处理存储在文本文件中的tweet。我的代码逐个读取tweet，对它们进行处理，然后将Watson的结果保存在csv文件中。速度大约是每分钟28条推特。数据文件处理是否导致了这种延迟？ while 1: where = file.tell() line = file.readline() if not line: print "no line found, waiting for a 1 seconds" time.sleep(1) file.seek(where) else:

浏览 0提问于2018-04-23得票数 0

回答已采纳

2回答

在重型csv中选择行

、、

我搜索如何选择一行字行，所以我使用这个脚本 import pandas import datetime df = pandas.read_csv( r"C:StockEtablissement_utf8(1)\StockEtablissement_utf8.csv", sep=",", ) communes = ["PERPIGNAN"] print() df = df[~df["libelleCommuneEtablissement"].isin(communes)] print() 所以我的脚本

浏览 4提问于2022-02-09得票数 0

回答已采纳

2回答

从CSV列表创建数组

、、

我在orders.csv中有一个这样的列表： Order 1025405008 1054003899 1055003868 1079004365 我希望将单元号(第2-4个字符)和整个订单号添加到一个数组中，因此它将如下所示： "0254","1025405008" "0540","1054003899" etc etc 我希望忽略前缀"1“。到目前为止，用我有限的PS知识，我已经创建了变量： $Orders = Import-csv c:\Orderlist.csv $Units = $Orders | Select

浏览 2提问于2016-09-26得票数 1

1回答

pandas、链式索引、csv中的空格和速度

、、

我的问题是关于使用Python 2.7.9中的Pandas模块进行索引的速度。我使用Pandas 0.12.0是因为所有高于0.12.0的版本都会使链式索引速度变慢，因为我使用的数据帧缺少列值(即使链式索引警告关闭)。这是我的 ('TESTDF.csv')的链接 python输入： import pandas as pd import numpy as np import time #importing raw data Rawdf = pd.read_csv('TESTDF.csv') # chained 1 t = time.time() Rawdf[&

浏览 3提问于2015-03-30得票数 1

1回答

为什么在Python或R中导入csv会加倍

、、、

这可能是一个众所周知的answer....but，为什么一个11 or的文件(csv)在导入Python (Pandas)或R时会变成两倍多？有问题的数据来自，解压缩后的数据为11 in (列车文件)。当我将它加载到python或R中时，它占用了两倍以上的空间。我在windows上有32 GB的RAM (当我加载文件时有大约29 GB的空闲空间)，我几乎用完了空间。在Python中： import pandas as pd train=pd.read_csv("C:\\Users\\train.csv") 在R中： train<-read.csv(file="

浏览 1提问于2014-06-27得票数 1

1回答

读取csv文件时会出现错误“没有这样的文件或目录”

、、

我正在尝试使用pyscript读取csv文件。有一个错误信息不断显示。 JsException(PythonError: Traceback (most recent call last): File "/lib/python3.10/site-packages/_pyodide/_base.py", line 429, in eval_code .run(globals, locals) File "/lib/python3.10/site-packages/_pyodide/_base.py", line 300, in run coroutine = ev

浏览 25提问于2022-10-26得票数 0

回答已采纳

1回答

在Python中操作大型csv文件的最快方法是什么？

、、

我一直在编写一段python代码，它读取一个有800多行和大约17000列的csv文件。我想检查csv文件中的每个条目，看看这个数字是否大于或小于一个值，如果是，我会分配一个默认值。我使用pandas并使用dataframes、apply和lambda函数。我花了172分钟浏览完csv文件中的所有条目。正常吗？有没有更快的方法来做这件事？我使用的是Python 2.7。我不知道它是否有用，但我是在32 10内存的windows10机器上运行它的。提前感谢你的帮助。代码附在下面。 def do_something(some_dataframe): col = get_req_colm(

浏览 0提问于2020-05-21得票数 1

1回答

Server 2008 - TSQL读取CSV文件

、、、、

我正在从事一个项目，该项目基本上需要将CSV文件导入Server 2008 R2数据库。CSV文件是从一个Excel文件中生成的，Excel文件由一个“经理”填充，并为他的员工提供了公关时间。这还包括一些附加信息，例如员工正在从事的工作和阶段，还包括设备的时数(如果使用的话)。一旦您为此生成一个CSV文件，它并不完全是通常的基于CSV文件的直进“列”。它更像是一个基于“行”的CSV文件，每一行都是独一无二的。由于这个警告，我不能对SQL直接转储(使用BULK insert或OPENROWSET)，这将需要创建一个(temp)表，并使用适当的列填充数据。我希望根据行中该字段的“位置”使用CS

浏览 0提问于2013-07-25得票数 1

2回答

Pandas无法打开csv文件:FileNotFoundError：[Errno 2]文件xyz.csv不存在：

、、

import pandas as pd df=pd.read_csv('Catalogue.csv') print(df) 我下载了地震csv文件。熊猫看不到文件。我使用VS code和Python 3.8.3，我在我编写代码的同一py文件中添加了csv文件。 ? 即使我在Jupyter Notebook文件夹中使用相同的代码(csv和我的代码文件在同一个文件夹中)，结果也是一样的。我猜如果它是excel，pip instal xlrd是写的。我做了pip install python-csv，但无法完成安装。然而，它是必要的吗？或者我需要修复csv文件(逗号或空格)？

浏览 14提问于2020-07-06得票数 0

1回答

处理来自请求的海量数据的MemoryError

、

我正在使用请求从Rest API下载数据，并使用Data frame将其下载为平面文件。我收到以下内存错误。对解决这个问题有什么建议吗？ File "C:\Python\Python37-32\my_script.py", line 74, in <module> df1= pd.DataFrame(my_list) File "C:\Python\Python37-32\lib\site-packages\pandas\core\frame.py", line 435, in __init__ arrays, columns = to_arra

浏览 16提问于2019-05-21得票数 0