问pyarrow读取gzipped拼图文件时的内存使用率极高
EN

Stack Overflow用户

提问于 2019-09-06 08:27:46

回答 1查看 1.5K关注 0票数 0

我有一组gzipped拼图文件，大约有210列，我正在将其中的大约100列加载到pandas数据框架中。当文件大小约为1MB(约50行)时，它工作得很好且速度非常快；python3进程消耗的内存小于500MB。然而，当文件大于1.5MB (70+行)时，它开始消耗9-10 GB的内存，而不加载数据帧。如果我只指定2-3列，它就能够从“大”文件中加载它们(仍然消耗这种类型的RAM)，但是超出这个范围似乎是不可能的。所有列都是文本。

我目前正在使用pandas.read_parquet，但我也尝试过pyarrow.read_table，结果也是一样的。

知道是怎么回事吗？我就是不明白为什么加载这么多的数据会把RAM炸得这么大，而且变得不可用。我的目标是将拼图中的数据加载到数据库中，所以如果有更好的方法来做到这一点，那就太好了。

代码如下；这只是pandas.read_parquet的一个简单用法。

import pandas as pd
df = pd.read_parquet(bytesIO_from_file, columns=[...])

pandas

parquet

pyarrow

回答 1

Stack Overflow用户

发布于 2019-09-06 10:56:16

pyarrow 0.14中存在一个已解决的内存使用问题：https://issues.apache.org/jira/browse/ARROW-6060

即将到来的0.15版本将有这个修复，以及在Parquet阅读中的一堆其他优化。如果您想现在就尝试一下，请参阅the docs以安装开发版本。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57814342

复制

相似问题

问pyarrow读取gzipped拼图文件时的内存使用率极高
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问pyarrow读取gzipped拼图文件时的内存使用率极高EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问pyarrow读取gzipped拼图文件时的内存使用率极高
EN