首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >任务作业因为内存使用而被杀死?

任务作业因为内存使用而被杀死?
EN

Stack Overflow用户
提问于 2018-01-24 22:26:23
回答 2查看 925关注 0票数 3

您好,我有一个python脚本,它使用dask库来处理非常大的数据帧,比物理内存还大。我注意到,如果内存使用率在一段时间内保持在计算机的100%,作业会在运行过程中被终止。

这是意料之中的吗?我本以为数据会溢出到磁盘上,而且还有大量的磁盘空间。

有没有办法限制它的总内存使用量?谢谢

编辑:

我也试过了:

dask.set_options(available_memory=12e9)

它没有起作用。它似乎没有限制它的内存使用。同样,当内存使用率达到100%时,作业将被终止。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-01-25 00:11:31

这条线

代码语言:javascript
运行
复制
 ddf = ddf.set_index("sort_col").compute()

实际上是将整个数据帧放到内存中并转换为pandas。您希望删除.compute(),并应用任何逻辑(过滤、分组/聚合等)。在调用compute生成足够小的结果之前,您首先需要。

需要记住的重要一点是,结果输出必须能够放入内存中,并且每个worker正在处理的每个块(加上管理费用)也需要能够放入内存中。

票数 2
EN

Stack Overflow用户

发布于 2018-01-24 22:37:35

尝试使用以下命令分块查看数据:

chunksize = 10 ** 6 for chunk in pd.read_csv(filename, chunksize=chunksize): process(chunk)

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48424813

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档