Python:获取大型CSV文件的内存错误

文章/答案/技术大牛

发布

1回答

、、

我有以下代码片段，最后一行rows = list(reader)出现内存错误 for file in fileList:if fileExtension == ".csv": reader = csv.reader(f, delimiter=',&#

浏览 21提问于2019-02-14得票数 0

回答已采纳

1回答

Python性能优化: JSON到CSV，大文件

、、、、

我的一位同事要求我将"Yelp Dataset挑战“中的6个大文件从”平面“、普通的JSON转换为CSV (他认为这些文件看起来像有趣的教学数据)。(csvdir+os.path.splitext(file)[0]+'.csv',index=0,quoting=1) 不幸的是，我的计算机的内存不能满足这个大小的文件<

浏览 1提问于2017-02-10得票数 2

回答已采纳

1回答

内核以奇怪的行为死去

、、、

我有一个简单的函数，表现出奇怪的行为。我已经找过解释了，但什么也找不到。frame.iloc[i,7])以上代码的结果是print('before') 无论如何，简单地添加一个print语句就可以提供米芬奇之后

浏览 2提问于2020-12-04得票数 0

3回答

用于循环生成MemoryError

、、、

with open(files, "rb") as f: totalTweets = 0 for eachHashtag in hashtagsArr:为什么for循环为大型csv文件生成内存错误？我只是简单地迭代一

浏览 5提问于2017-10-05得票数 0

回答已采纳

1回答

Python处理包含对象列表的大型JSON文件

、、、、

我正在解析一个包含对象数组的大型JSON文件，并用Python编写csv文件中的数据。JSON文件的大小为50 on，在加载该文件时，我将在线获得内存错误(data = json.load(data_file))。当我以大约4GB及以下的文件大小运行时，代码将成功运行。当我以50 GB或更大的文件大小运行时，

浏览 7提问于2021-12-07得票数 1

回答已采纳

1回答

如何在没有REPL崩溃的情况下，高效、快速地将大型(6GB) .csv文件导入R中？

、

我有一个大型的.csv文件，需要导入到R中，以便对其进行一些数据操作。我使用的是read.csv(file.csv)方法，其中我将方法的结果分配给一些变量MyData。有没有一种方法可以高效、快速地处理/读取R中的.csv文件，而不会使终端崩溃？如果没有，我不是应该使用Python吗？

浏览 2提问于2017-08-09得票数 3

回答已采纳

1回答

处理python内存错误中非常大的数据集

、、、

我试图使用python中的csv模块处理从csv文件中获得的数据。这里大约有50列& 401125行。()for row in csv_file_object:我可以使用len(data)获取这个列表的长度&它返回401125。我甚至可以通过调用列表索引来获取每个单独的记录。但是，当我试图通过调用np.size(dat

浏览 5提问于2013-01-27得票数 6

回答已采纳

1回答

Python中的生成器效率

、、

我理解Python中的生成器可以帮助读取和处理大型文件时，需要从文件中进行特定的转换或输出(例如读取特定的列或计算聚合)。但是，对于我来说，不清楚在Python中使用生成器是否有什么好处，因为它的唯一目的是读取整个文件。编辑:假设您的数据集适合内存。pd.read_csv('sample_file.csv', chunksi

浏览 2提问于2022-07-17得票数 2

回答已采纳

1回答

正在读取大型CSV文件

、

我正在尝试用Python读取一个很大的csv文件；它有大约700个属性和101533行。我尝试使用pandas.read_csv命令读取文件，但它出现了内存问题，然后我尝试了这个解决方案with file("data.csv", "rb") as fsplitted by "," print np.sum(data, axis=0) # sum

浏览 1提问于2016-04-29得票数 2

3回答

使用Python将大型CSV文件转换为excel的内存问题

、

我正在尝试使用python将一个大型~100 using文件转换为xlsx。我尝试了下面的解决方案，但是遇到了内存问题。下面的解决方案通过块写入来解决内存问题，但是过写文件.请有人推荐如何添加到同一个文件，而不是创建新的文件或覆盖相同的文件？import pandas as pd df = pd.read_csv</

浏览 7提问于2022-11-04得票数 0

1回答

从sql server通过WCF传输到客户端的大数据

、、、

使用SQL数据库存储大型数据文件( CSV文件约1 GB)，并使用WCF将数据从数据库流式传输到客户端(而无需在内存中获取完整数据)，有哪些可能的方法？

浏览 1提问于2016-02-01得票数 1

1回答

如何使用rest模板从块中读取大CSV文件

、、、

我需要从azure blob中读取大型CSV文件，处理这些记录并将这些记录存储到Db中。目前，我正在使用rest模板来完成这一任务。对于小型文件来说，它工作得很好。然而，对于较大的文件，它是释放内存错误。处理数据块并将其插入数据库。

浏览 16提问于2022-11-12得票数 0

1回答

Scikit和Pandas:拟合大数据

、、、、

如何使用-学习在没有遇到内存问题的情况下训练大型csv数据(~75 on )上的模型？问题： "MemoryError“发生在使用read_csv函数加载大型数据集时。为了暂时绕过这个问题，我必须重新启动内核，然后read_csv函数成功地加载文件，但是当我再次运行相同的单元时，同样的错误会发生。当read_csv函数成功加载文件时，

浏览 2提问于2012-07-29得票数 14

回答已采纳

1回答

Pandas中HDF文件帧中列的附加

、、、

我正在处理一个CSV格式的大型数据集。我正在尝试一列一列地处理数据，然后将数据附加到HDF文件中的框架中。所有这些都是用Pandas来完成的。我的动机是，虽然整个数据集比物理内存大得多，但列大小是可管理的。在稍后阶段，我将一个一个地将列加载回内存并对它们进行操作，从而执行按特性进行的逻辑回归。我能够创建一个新的HDF文件，并使用第一列创建一个新的

浏览 3提问于2013-12-06得票数 10

回答已采纳

1回答

如何在python中从内存中的Google Drive读取(流)文件？

、、

我正在尝试读取使用google-api-python-client 放在Google Drive上的大型CSV文件request = drive_service.files().get_media(fileId=file_id)downloader = MediaIoBaseDownload(fh, req

浏览 1提问于2017-08-05得票数 0

回答已采纳

1回答

如何迭代大型Pyspark Dataframe中列的不同值？.distinct().collect()引发大型任务警告

、

我正在尝试迭代一个大型Pyspark Dataframe列中的所有不同值。当我尝试使用.distinct().collect()执行此操作时，即使只有两个不同的值，它也会发出“任务太大”警告。)], ['a', 'b', 'c']) # This code produces this warning 如何在不遇到内存问题的情况下迭代大型</e

浏览 1提问于2020-01-14得票数 1

3回答

如何使用Scala Stream类读取大型CSV文件？

、、、

如何使用Scala Stream读取大型CSV文件(> 1 Gb)？你有代码示例吗？或者，您是否会使用不同的方法来读取大型CSV文件，而无需先将其加载到内存中？

浏览 3提问于2010-11-23得票数 46

回答已采纳

2回答

使用大型csv文件。如何使用python在MySQL数据库中插入csv数据？

、、、、

我感兴趣的是如何插入例如10 GB的.csv文件到MySQL数据库。我使用pandas和pyspark来读取csv文件，然后添加csv头到列表中(如果csv文件没有头，我使用spark添加它)。所以我在编辑列表 query = "insert into `"+ table_name +"` (" + column_names + ") values (" + row_valu

浏览 20提问于2021-07-11得票数 0

1回答

Python -运行使用多处理的多个python脚本会影响性能，有时会出现错误

、、、

我有一个PYTHON脚本，它使用多进程将数据从DB2/Oracle数据库提取到CSV并摄取到Snowflake。当我运行这个脚本时，性能很好(在75秒内提取大型数据集的源表)。因此，我复制了这个python脚本，并更改了输入参数(基本上不同的源表)。当我同时运行所有这些python脚本时，性能会受到影响(对于同一个表，它会在100秒内提取)，有时我会看到错误“无法分配内存”。我使用的是Jupyter Noo

浏览 0提问于2020-10-10得票数 0

1回答

大熊猫蟒蛇为什么要使用磁盘空间？

、、

我有一台有两个磁盘的电脑：在SSD中有大约18 in的免费。当我运行下面的python代码时，它“使用”了我的SSD中的所有空间(我最后只有1GB的空闲空间)。此代码迭代文件夹中的所有SAS文件，按操作执行组，并将每个文件的结果附加到一个大数据帧中。另外，我想将保存这个“临时工作”的路径更改为我的HDD中的

浏览 5提问于2017-11-20得票数 0

点击加载更多