您好,我有一个python脚本,它使用dask库来处理非常大的数据帧,比物理内存还大。我注意到,如果内存使用率在一段时间内保持在计算机的100%,作业会在运行过程中被终止。
这是意料之中的吗?我本以为数据会溢出到磁盘上,而且还有大量的磁盘空间。
有没有办法限制它的总内存使用量?谢谢
编辑:
我也试过了:
dask.set_options(available_memory=12e9)
它没有起作用。它似乎没有限制它的内存使用。同样,当内存使用率达到100%时,作业将被终止。
发布于 2018-01-25 00:11:31
这条线
ddf = ddf.set_index("sort_col").compute()实际上是将整个数据帧放到内存中并转换为pandas。您希望删除.compute(),并应用任何逻辑(过滤、分组/聚合等)。在调用compute生成足够小的结果之前,您首先需要。
需要记住的重要一点是,结果输出必须能够放入内存中,并且每个worker正在处理的每个块(加上管理费用)也需要能够放入内存中。
发布于 2018-01-24 22:37:35
尝试使用以下命令分块查看数据:
chunksize = 10 ** 6 for chunk in pd.read_csv(filename, chunksize=chunksize): process(chunk)
https://stackoverflow.com/questions/48424813
复制相似问题