jupyter notebooks中的IPython :使用pandas读取大型数据文件变得非常慢(高内存消耗？)

在Jupyter Notebooks中，IPython是一种交互式计算环境，它提供了一个强大的交互式Shell和一个交互式的Python编程界面。IPython具有许多功能，包括代码自动完成、代码片段、内省、历史记录、魔术命令等。

当使用pandas读取大型数据文件时，可能会遇到内存消耗较高的问题。这是因为pandas默认会将整个数据文件加载到内存中进行处理，当数据文件非常大时，会导致内存不足的问题。

为了解决这个问题，可以采取以下几种方法：

使用pandas的分块读取功能：pandas提供了一种分块读取大型数据文件的方法，可以将数据文件分成多个块进行逐块处理，从而减少内存消耗。可以使用pd.read_csv()函数的chunksize参数来指定每个块的大小。示例代码如下：

import pandas as pd

chunk_size = 100000  # 每个块的大小
file_path = 'data.csv'  # 数据文件路径

# 逐块读取数据文件
for chunk in pd.read_csv(file_path, chunksize=chunk_size):
    # 对每个块进行处理
    # 进行数据分析、清洗、转换等操作
    # ...

使用更高效的数据存储格式：pandas支持多种数据存储格式，如Parquet、Feather等，这些格式可以提供更高的读取和写入性能，并且可以减少内存消耗。可以使用pd.read_parquet()或pd.read_feather()等函数来读取数据文件。示例代码如下：

import pandas as pd

file_path = 'data.parquet'  # 数据文件路径

# 读取Parquet格式的数据文件
df = pd.read_parquet(file_path)

# 对数据进行处理
# ...

使用云计算资源进行处理：如果本地计算资源有限，可以考虑使用云计算资源来处理大型数据文件。腾讯云提供了一系列的云计算产品，如云服务器、云数据库、云存储等，可以根据实际需求选择适合的产品来处理大型数据文件。具体产品和介绍可以参考腾讯云的官方网站：腾讯云产品介绍

总结起来，当在Jupyter Notebooks中使用IPython读取大型数据文件变得非常慢时，可以考虑使用pandas的分块读取功能、更高效的数据存储格式，或者利用云计算资源来处理数据文件。以上是一些建议，具体的解决方案需要根据实际情况进行选择和调整。

页面内容是否对你有帮助？

有帮助

没帮助

jupyter notebooks中的IPython :使用pandas读取大型数据文件变得非常慢(高内存消耗？)

、、、、

我有一个巨大的数据文件，我想在jupyter笔记本中处理。我在for循环中使用pandas，用于指定我正在从文件中读取哪些行： import pandas as pd from tqdm import tqdm gc.coll

浏览 29提问于2019-05-08得票数 0

1回答

慢速网络上的Java服务器内存管理

、

我正在编写一段代码，用于生成一个大型XML文档，并使用StAX XmlStreamWriter将其直接写入客户端流。我担心如果网络变得非常慢，写入流的字节实际上将在内存缓冲区中停留相对较长的时间，并消耗我的服务器上的大量内存。我的问题是:有没有办法让我保持直接写入客户端流，并避免我上面描述的潜在内存问题？

浏览 0提问于2009-12-28得票数 1

回答已采纳

1回答

内存和磁盘中的文件大小不同

、

我刚刚用pandas' to_csv函数写了一个csv文件。我可以看到这个文件在磁盘上的大小是13 is。我想使用pd.read_csv将此文件读回到pandas dataframe中。在读取此文件时，我监视服务器的内存使用情况。原来读取该文件所消耗的内存是30GB+，并且该文件永远不会被读入。我的jupyter no

浏览 2提问于2017-06-27得票数 0

5回答

python中的多处理-在多个进程之间共享大对象(例如pandas dataframe)

、、

each tuplep.close()这种方法具有巨大的内存消耗；几乎消耗了我所有的RAM (在这一点上它变得非常慢，因此使得多处理变得非常无用)。我假设问题是df是一个巨大的对象(一个大型的熊猫数据帧)，它会被复制到每个进程中

浏览 1提问于2014-03-19得票数 74

0回答

PHP创建超大型图像文件

、、、

在我的应用程序中，用户上传多张照片(例如，每张3000x2000，以JPG和PNG格式)。我的PHP程序需要布局这些照片，并将它们组合成1张大照片。我需要创建一个大图像，将4个图像放置在2x2网格布局中，就像这样-| p1| p2 || p3 | p4 |我可以使每个图像更小(例如，原始图像的50% )，以便整体尺寸可

浏览 11提问于2017-12-08得票数 0

回答已采纳

1回答

Laravel用于大数据的惰性收集

、

我正在查询表中的一个大型数据集，然后迭代一个循环来创建一个json文件。= App\User::all(); // logic goes here for creating the json file现在我面临的问题是，当我在循环中迭代时，它正在消耗内存，我得到的错误是“允许的内存大小耗尽”，而且服务器的cpu使用率也<

浏览 15提问于2019-11-20得票数 1

0回答

我遇到了一个问题，在Windows (8 Gb RAM)上使用0.18.1 pandas和2.7.10 Python从大型csv文件中读取随机行。在中，我看到了一种方法，然而，对于我的PC来说，它非常消耗内存，也就是说，部分代码：s = 10 skip = sorted(rnd.sample(xrange(1, n), n-s)，不仅考虑到100行，而且考虑到100000行，这就变得</em

浏览 27提问于2016-07-07得票数 3

回答已采纳

2回答

从多个JSON文件构造DataFrame

、

我正在使用熊猫将多个json文件转换成一个数据文件。我只需要一些与这些文件中的一些条件相匹配的条目，但是我会附加整个转换后的文件，然后过滤它。{ "CodItem": 30, "Price": 0.5] 我只想在我的dataframe上使

浏览 1提问于2019-06-06得票数 1

回答已采纳

2回答

闪烁任务管理器超时

、、、

随着越来越多的记录被处理，我的程序变得非常慢。我最初认为这是由于过多的内存消耗，因为我的程序是字符串密集型的(我使用的是Java 11，所以应该尽可能使用紧凑的字符串)，所以我增加了JVM堆： -Xms2048m -Xmx6144m 我还增加了任务管理器的内存和超时时间在处理了大约350万条记录之后，程序在大约

浏览 45提问于2020-07-25得票数 1

回答已采纳

3回答

有没有办法压缩内存中的对象并透明地使用它？

、、、、

我目前正在构建一个处理大量数据的分析应用程序。典型的情况是这样的:用户选择一个包含大约600个测量文件的文件夹，每个测量文件包含大约40.000到100.000个值。应用程序将这些值读取到一个对象中，该对象在内部充当数据缓存，因此不必在每次访问时都读取文件。这非常有效，但我注意到内存消耗非常高，最终可能会变得太大。在我的测试中

浏览 0提问于2014-05-14得票数 9

回答已采纳

3回答

高性能开发

、、

背景我们一直非常努力地尝试为“高性能”应用程序提供解决方案。该应用程序基本上是一个高吞吐量的内存管理器，并同步回磁盘.“读”和“写”非常高，每秒大约有3000次交易。我们试着在内存中尽可能多地使用，但是最终数据变得陈旧，需要刷新到磁盘，这就是随之而来的一个巨大的“瓶颈”。这个应用程序是多线程的，大约有50个线程。没有IPC (进程间通信)。我们用非托管代码(C#

浏览 4提问于2012-08-17得票数 10

回答已采纳

1回答

在h5py中只存储'column‘数据，而不加载整个数据文件

、、

我有一个相对较大的数据集(大约8 8GB)，并使用h5py将其读入jupyter笔记本。数据集的形状最终类似于(50000000,384)。我的理想数据集应该将其转置，这样我就可以查看数据集中的每个“列”。我能够获得每一列的唯一方法是对每一列进行索引(这非常慢并且占用大量CPU，因为它是在50000000行中逐行进行的)或者将h5数据转换成np.array并转置它-这也是非常<e

浏览 1提问于2017-09-22得票数 0

2回答

在python中读取庞大的sas数据集

、、

我有一个50 gb的SAS数据集。我想在pandas dataframe中阅读它。快速读取sas数据集的最佳方法是什么？我使用了下面的代码，它太慢了：df = pd.read_sas("xxxx.sas7bdat", chunksize = 10000000) dfs.append(chunk)有没

浏览 1提问于2019-10-30得票数 2

1回答

火花混乱内存开销问题

、、

在设计火花作业(使用Spark2.3.x)时，我遇到了一些反复出现的问题。作业本质上是一些昂贵的洗牌操作(对粒度较细的大型数据文件进行.groupby或.join操作)。之后，结果被写入磁盘(Parquet)--大多数任务非常迅速地成功我想知道单个任务怎么会有这么高的内存消耗。在我对星火如何工作的理解中，应该有可能使任务足够小，以使它们适合记忆。而

浏览 0提问于2021-09-09得票数 1

1回答

当所有内存耗尽，没有交换时，Ubuntu会做什么？

、、

当我在Firefox中同时打开许多选项卡和一些大型PDF文件时，大约使用了2.4-2.5GBRAM，并且使用了大约700至800 MB的交换空间。但是，桌面接口的响应速度有点慢，有时在加载RAM ->交换区时会变得没有响应。当我关闭其中一些软件并运行命令sudo swapoff -a && sudo swapon -a时，它再次响应，从而将交换的内容加载回内存中。我发现，在打开

浏览 0提问于2020-11-20得票数 9

回答已采纳

2回答

SQL Server :内存压力、用户连接和CPU使用情况

、、、、

有一个2.5 TB大小的大型数据库。从同一个sql instance.Reporting进行的报告也是最小的。当我看到我的计划缓存正在被创建时，内存压力是存在的，我注意到了当我查询循环缓冲区时显示内存压力的标志。此外，当我有时看到慢速查询的执行计划时，我还会看到tempdb内存溢出、巨大的内存分配问题。大多数进入数据库的读取操

浏览 0提问于2019-09-13得票数 1

1回答

将大型文件保存在烧瓶中

、、、

我正在编写一个"webapp“，供我自己使用，它的目的是用我自己的计算机作为服务器运行。它基本上是一个很好的数据可视化接口。这个应用程序需要在Python中操作大型矩阵(约100 to )，并将计算结果返回浏览器进行可视化。目前，我只是将数据存储在一个csv文件中，每次我想使用它时都会将它加载到熊猫中，但是这非常慢(大约15秒)。是否有办法使这个对象( pandas.Da

浏览 3提问于2016-05-24得票数 1

1回答

使用气流迁移大型表

、、

我是刚开始使用气流的(也是Python的新手)。这给无法完全装入内存且正在失败的</em

浏览 1提问于2021-03-25得票数 2

回答已采纳

1回答

熊猫/达克-通过和聚集一个大的CSV的小组，破坏了记忆和/或花费了相当长的时间。

、、、

我正在尝试一个小型POC，尝试按&聚合来减少熊猫和Dask中来自大型CSV的数据，而且我观察到内存使用率很高和/或比我预期的处理时间慢。有没有人对蟒蛇/熊猫/杜克诺布有什么改进的建议？问题对于熊猫和达斯克，处理1GB的csv要花费1分钟，熊猫要消耗1.5GB的，Dask要消耗9GB的，dask要消耗2GB<

浏览 2提问于2021-02-11得票数 1

1回答

是否有可能“暂停”awk来执行一些其他命令而不会失去它在文件中的位置？

、、

要做到这一点很容易，方法是将文件(我们称之为${HUGE_DATA_FILE})从zcat转到awk，然后将满足条件的行打印到最后被压缩的临时文件中。然而，可能有40%的行满足条件，临时文件变得巨大。如果我并行地尝试多个文件，非this临时文件将迅速占用所有可用内存。我编写了一个用块处理文件的脚本:它读取100,000行数据，将适当的行提取到临时文件中，然后gzip将临时文件添加到输出文件中。Be

浏览 4提问于2022-04-03得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

jupyter notebooks中的IPython :使用pandas读取大型数据文件变得非常慢(高内存消耗？)

相关·内容

jupyter notebooks中的IPython :使用pandas读取大型数据文件变得非常慢(高内存消耗？)

慢速网络上的Java服务器内存管理

内存和磁盘中的文件大小不同

python中的多处理-在多个进程之间共享大对象(例如pandas dataframe)

PHP创建超大型图像文件

Laravel用于大数据的惰性收集

读取大型csv文件、python、pandas的随机行

从多个JSON文件构造DataFrame

闪烁任务管理器超时

有没有办法压缩内存中的对象并透明地使用它？

高性能开发

在h5py中只存储'column‘数据，而不加载整个数据文件

在python中读取庞大的sas数据集

火花混乱内存开销问题

当所有内存耗尽，没有交换时，Ubuntu会做什么？

SQL Server :内存压力、用户连接和CPU使用情况

将大型文件保存在烧瓶中

使用气流迁移大型表

熊猫/达克-通过和聚集一个大的CSV的小组，破坏了记忆和/或花费了相当长的时间。

是否有可能“暂停”awk来执行一些其他命令而不会失去它在文件中的位置？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐