在Pandas dataframe中加载一个巨大的表时，如何避免EC2中的内存错误？

在Pandas dataframe中加载一个巨大的表时，可以采取以下几种方法来避免EC2中的内存错误：

优化数据类型：通过选择合适的数据类型来减少内存占用。例如，将整数列转换为较小的整数类型（如int8、int16）或使用浮点数的更低精度版本（如float32）。
分块加载数据：将大表分割成较小的块，并逐块加载和处理数据。这可以通过Pandas的chunksize参数实现，它允许逐块读取数据并进行处理。
使用迭代器：使用Pandas的迭代器功能，如read_csv函数的iterator参数，可以逐行或逐块地读取数据，而不是一次性加载整个表。
内存映射：使用Pandas的mmap参数，将数据映射到磁盘上的虚拟内存，而不是加载到实际内存中。这样可以减少内存占用，但可能会降低数据处理速度。
压缩数据：如果数据具有重复值或较多的稀疏性，可以考虑使用压缩算法（如gzip或bzip2）来减少数据文件的大小，从而减少内存占用。
使用数据库：将数据存储在数据库中，并使用Pandas的数据库连接功能（如SQLAlchemy）来查询和处理数据。这样可以利用数据库的优化功能来处理大型数据集。
增加EC2实例的内存：如果以上方法无法解决内存错误，可以考虑升级EC2实例的规格，选择具有更大内存容量的实例类型。

腾讯云相关产品和产品介绍链接地址：

腾讯云数据库TDSQL：https://cloud.tencent.com/product/tdsql
腾讯云弹性计算ECS：https://cloud.tencent.com/product/cvm
腾讯云对象存储COS：https://cloud.tencent.com/product/cos
腾讯云云服务器CVM：https://cloud.tencent.com/product/cvm
腾讯云云原生容器引擎TKE：https://cloud.tencent.com/product/tke

请注意，以上答案仅供参考，具体解决方案应根据实际情况和需求进行调整。

在Pandas dataframe中加载一个巨大的表时，如何避免EC2中的内存错误？

python、pandas、dataframe、amazon-redshift、etl

我尝试连接到redshift并将我巨大的事实表加载到pandas dataframe中，如下所示，当我执行脚本时，我总是遇到内存错误。我认为要么是块加载部分不正确，要么就是我根本不应该将整个事实表加载到dataframe中。有谁能告诉我正确的方向吗？psycopg2.connect(dbname='&

浏览 9提问于2020-08-28得票数 0

1回答

用“JSON”加载部分JSON，在Python中加载“part”

python、json、pandas、dataframe

我正在努力使我的脚本对可能巨大的JSON文件健壮。上面的代码已经将数据数组加载到一个Dict data和一个DataFrame df中，这充其量是效率低下的。目前，我只在测试系统时加载~215 k行，但我预计在以后的版本<

浏览 18提问于2022-09-26得票数 1

2回答

从HDF5文件读取pandas.Dataframe列的子集

python、pandas、numpy、hdf5、h5py

我在HDF5文件中保存了一个pandas.DataFrame。DataFrame由多个列组成，大小非常大。HDF5文件中每个表的大小都大于2 2GB。对于分析，希望仅将表的列的子集加载到存储器中。使用SQLite3，这是一项微不足道的工作。只需使用"select column1，colum2，... from table1“查询即可。<

浏览 2提问于2019-08-07得票数 0

1回答

在azure ML中过滤TabularDataset

pandas、azure-machine-learning-studio、azure-machine-learning-service、azureml、azureml-python-sdk

我的数据集是巨大的。无论如何，我会过滤tabularDataset中的数据，而不是转换为pandas数据帧。我使用下面的代码来读取数据。由于数据量巨大，pandas数据帧正在耗尽内存。我不需要将完整的数据加载到程序中。有没有办法在转换为pandas数据框之前过滤记录 def read_Dataset(dataset):

浏览 69提问于2021-01-06得票数 1

1回答

活动函数失败:python与代码137一起退出

python、pandas、rest、azure-functions、azure-durable-functions

我正面临着同样的问题，这是在下面的线程中描述的。，但我无法找到正确的解决方案。下面是我想做的事：我将参数传递给请求(要检索数据的容器路径)和筛选记录的日期，但http触发超时为230秒。方法二：(使用持久活动) 和上面一样，但是现在我得到了这个错误(Activity function failed :python exited with code 137)。下面是我的</

浏览 17提问于2022-09-07得票数 0

1回答

将非常大的CSV数据集加载到Python和R中，Pandas举步维艰

python、r、pandas、csv、data.table

我正在将一个巨大的csv (18 am )加载到内存中，并注意到R和Python之间的巨大差异。这是在亚马逊网络服务的ec2 上。显然，这是一个极端的例子，但这个原则也适用于真实机器上的较小文件。当使用pd.read_csv时，我的文件花了大约30分钟加载，占用了174 up的</em

浏览 1提问于2017-11-01得票数 8

1回答

Dask DataFrame能和大熊猫DataFrames一起工作吗？

python、pandas、dask

然而，当我尝试使用它时，我得到了一个内存错误，如下所示。df = pandas.DataFrame({'x': my_very_large_array}) ddf = dask.dataframe.from_pandas(df, npartitions=100) 我认为Dask应该处理比内存更大的数据。

浏览 7提问于2019-03-06得票数 0

回答已采纳

1回答

将数据从S3读取到pandas的最佳方法

python、pandas、amazon-web-services、amazon-s3、amazon-ec2

我有两个CSV文件，一个大约60 GB，另一个在S3中大约是70 GB。我需要将这两个CSV文件加载到pandas数据帧中，并对数据执行连接和合并等操作。我有一个EC2实例，它有足够的内存供两个数据帧一次加载到内存中。从S3到pandas数据帧读取这么大的文件的最佳方式是什么？另外，

浏览 5提问于2020-05-06得票数 0

1回答

调用函数时的Pandas、大数据、HDF表和内存使用情况

pandas、memory、hdf5、large-data

简短问题当Pandas在HDFStore (例如：.mean()或.apply() )上工作时，它是将内存中全部数据作为DataFrame加载，还是以序列的形式逐个处理记录？我已经看到panda.read_table()已经走了很长的路，但它仍然至少需要与我们想要读取的原始文件大小一样多的内存(实际上至少是内存的两倍)才能转换为Data

浏览 0提问于2013-03-29得票数 6

回答已采纳

3回答

从存储在Pandas* DataFrame中的分类数据中为巨大的特征向量创建CSR/COO格式的稀疏矩阵*

python、pandas、matrix、scipy、statistics

如何从存储在Pandas DataFrame中的分类数据中为巨大的特征向量(50000 X 100000)创建CSR/COO格式的稀疏矩阵？我使用Pandas get_dummies()函数创建特征向量，但它返回一个MemoryError。我如何避免这种情况，而是以稀疏矩阵CSR格式生成它？

浏览 1提问于2015-11-10得票数 3

1回答

懒惰创建来自PostgreSQL / Cassandra的Dask DataFrame

python、postgresql、dataframe、cassandra、dask

据我所知，Dask DataFrame是处理表格数据的正确方法。我在PostgreSQL中有一个表，我知道如何将它加载到pandas.Dataframe中。我知道，odo可以用来将pandas.DataFrame转换成dask.dataframe。但这不是惰性操作:这种转换强制将整个PostgeSQL表加载到内存</em

浏览 1提问于2016-10-06得票数 6

1回答

处理不适合内存的Pandas* DataFrames*

python、numpy、pandas、pca、hdf

我正在使用DataFrame对象操作一个巨大的，这个表太大，无法完全加载到内存中，所以我不得不逐块提取数据，这对于很多任务来说都是很好的。这就是我的问题，我想在表上应用PCA，它需要加载整个DataFrame，但是我没有足够的内存来完成这个任务。以numpy数组或熊猫DataFrame作为输入，是否有另一种方法

浏览 0提问于2015-01-16得票数 0

3回答

Rails4:如何在活动记录中添加计算列

sql、ruby-on-rails、ruby、ruby-on-rails-4、activerecord

我们已经在用户表上找到了一个列“data”，其中有一个巨大的json转储。Users.where(SOME_CONDITION).select(:name,:email,:image) 主要

浏览 4提问于2015-02-18得票数 4

1回答

如何在将长长的DEAP日志(10 MM)转换为Colab中的数据帧时，修正RAM限制？

python、pandas、dataframe、deap

当将DEAP的日志(基本上是字典列表)和大约10个MM条目转换为一个Dataframe进行进一步处理时，我收到了一条关于Google中RAM溢出的消息。我正在使用DEAP软件包做一些实验，因为我的机器又慢又旧，我一直在用Google提供的Colab服务帮助我自己。模拟的结果是DEAP的日志，这是一个字典列表。每个字典都是一个重要值的一个重要<em

浏览 0提问于2019-07-02得票数 2

回答已采纳

1回答

方炼金术/熊猫-我如何创建一个方炼金术`可选‘传递给pd.read_sql？

python、pandas、sqlalchemy

我对sqlalchemy完全陌生，我一直在努力更好地理解如何使用pd.read_sql。我成功地运行了以下命令：import pandas as pd df = pd.DataFrame( index=range(10,30), data=pd.read_sql的第一个参数来加载表中存储的任何内容，但是如果我只想加载列index大于某个数字的

浏览 2提问于2016-09-21得票数 1

回答已采纳

1回答

变量作用域和共享“全局”引用数据帧

python、pandas

许多不同的类和脚本需要引用相同的数据。这是历史参考数据。它很少更改，通过从.CSVs批量更新。将这些数据多次加载到内存中是非常低效的。我想在第一次使用数据时加载一次数据，然后在每次需要时引用相同的副本。数据帧将在第一次被引用时从.CSV加载，然后所有不同的类和脚本将只使用该指针变量来查找已经驻留在内存中的数据

浏览 13提问于2019-08-23得票数 0

3回答

如何将Dask.DataFrame转换为pd.DataFrame？

python、pandas、dask

如何将生成的dask.DataFrame转换为pandas.DataFrame (假设我已经完成了繁重的任务，只想将sklearn应用到聚合结果中)？

浏览 27提问于2016-08-18得票数 43

回答已采纳

3回答

从大熊猫中加载BigQuery表DataFrames

python、pandas、google-cloud-platform、google-bigquery、parquet

我正在尝试使用官方的python客户机库将一个相对较大的pandas dataframe df加载到Google BigQuery表table_ref中。到目前为止，我已经尝试了两种不同的方法：client = bigquery.Client() client.load_table_from_datafr

浏览 12提问于2020-03-29得票数 5

回答已采纳

1回答

使用从拼花文件创建的dataframe时内存使用量过高

parquet、dask

当我尝试执行像dask_train_df.head()或dask_train_df.loc[2:4].compute()这样的简单操作时，我会得到内存错误，即使是使用17+ GB的内存。1)因此，我的问题是，为什么这些简单的操作会使用Dask Dataframe来破坏内存的使用，但是当我使用Pandas Dataframe将所有内容加载到

浏览 0提问于2018-12-24得票数 6

回答已采纳

1回答

CSV中大DataSet的Pandas* GroupBy均值*

python、pandas

一个常见的SQLism是"Select A，mean(X) from table group by A“，我想在pandas中复制这一点。假设数据存储在CSV文件中，并且太大而无法加载到内存中。如果CSV可以放在内存中，那么一个简单的两行代码就足够了： data=pandas.read_csv("report.csv"

浏览 2提问于2014-04-21得票数 5

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在Pandas dataframe中加载一个巨大的表时，如何避免EC2中的内存错误？

相关·内容

在Pandas dataframe中加载一个巨大的表时，如何避免EC2中的内存错误？

用“JSON”加载部分JSON，在Python中加载“part”

从HDF5文件读取pandas.Dataframe列的子集

在azure ML中过滤TabularDataset

活动函数失败:python与代码137一起退出

将非常大的CSV数据集加载到Python和R中，Pandas举步维艰

Dask DataFrame能和大熊猫DataFrames一起工作吗？

将数据从S3读取到pandas的最佳方法

调用函数时的Pandas、大数据、HDF表和内存使用情况

从存储在Pandas* DataFrame中的分类数据中为巨大的特征向量创建CSR/COO格式的稀疏矩阵*

懒惰创建来自PostgreSQL / Cassandra的Dask DataFrame

处理不适合内存的Pandas* DataFrames*

Rails4:如何在活动记录中添加计算列

如何在将长长的DEAP日志(10 MM)转换为Colab中的数据帧时，修正RAM限制？

方炼金术/熊猫-我如何创建一个方炼金术`可选‘传递给pd.read_sql？

变量作用域和共享“全局”引用数据帧

如何将Dask.DataFrame转换为pd.DataFrame？

从大熊猫中加载BigQuery表DataFrames

使用从拼花文件创建的dataframe时内存使用量过高

CSV中大DataSet的Pandas* GroupBy均值*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐