我有一个内存中可并行的小问题,但由于需要在进程之间来回发送大量数据,所以在常规的Python多处理(只有2xish)中不能提供很好的加速。希望达斯克能帮上忙。[key], key=key, n_jobs=n_jobs, **kwargs) for key, scdf in natsorted(scdf.groupby(grpby_key)))
但是,对于线程调度程序和多处理调度程序来说,dask代码要慢得多,内存消耗也要大得多。我希望
freeze and no files get written
选择新的分区,以便每个分区中文件的总内存不超过1000 MB。但是,最后的to_parquet调用将永远挂起。在dask仪表板上,没有任何活动。所有工作人员消耗的内存仍然非常小(55 it ),至少在仪表板中是这样;但是我怀疑它可能只是没有更新,因为一切都变得非常慢。运行代码的python进程不断增加内存消耗( Mac中的</e