触发Dask工作进程释放内存

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、

我正在使用Dask分发一些函数的计算。我的总体布局如下所示： from dask.distributed import Client, LocalCluster, as_completed except Exception as error: log.exception(error) 我的问题是，对于大量的作业，我往往会达到内存限制Process memory: 1.15 GB -- Worker me

浏览 55提问于2019-04-30得票数 4

回答已采纳

1回答

了解dask cudf对象生命周期

、、、

我想了解Dask对象的有效内存管理过程。我已经设置了一个Dask GPU集群，并且我能够执行跨该集群运行的任务。然而，使用dask对象，特别是当我运行计算函数时，在GPU上运行的进程会随着使用越来越多的内存而快速增长，很快我就会收到“内存不足错误”。我想知道如何在使用完dask对象后释放它们。在下面的示例中，在计算函数之后，我如何释放该对象。我运行了几次以下代码。内存在它运行的进程</em

浏览 16提问于2021-05-06得票数 1

2回答

在大于RAM的大型数据文件上应用一个函数

、、、、

这种行为在我看来是合乎逻辑的，也是最节省内存的，尽管实践表明，在处理完整个数据文件之前，Dask并没有释放内存。进程内存: 1.05 GB --工作内存限制: 1.50 GB的distributed.worker -警告-内存使用率很高，但是工人没有数据要存储到磁盘。也许还有其他的进程在漏掉内存？进程内存: 1.05 GB --工作内存<

浏览 5提问于2020-05-20得票数 1

回答已采纳

1回答

Dask分布式显然不会在任务完成时释放内存

、、、

我试图在一个分布式系统上执行一个自定义的dask图，问题是它似乎没有释放已完成任务的内存。我做错了什么吗？from dask import get} client

浏览 15提问于2019-07-08得票数 2

1回答

将使用大型np.ndarray的短任务并行化

、、

import multiprocessing pool.map(f, M)因此，问题是如何使用dask处理以大数据为输入的短任务？

浏览 7提问于2022-03-07得票数 0

1回答

使用自定义函数将dask包写到DB

、

我正在dask上运行一个函数，将数据转储到NoSQL DB中，如下所示： # code to write into db except (ValueError, TypeError):b

浏览 1提问于2020-08-15得票数 2

回答已采纳

1回答

在Dask.distributed中使用client.scatter(df)时异常

、

我正在使用稳定/ Dask存储库中的Helm Chart在Kubernetes上使用dask。没有名为“pandas.core.inders.manager”的模块；“pandas.core.internals”不是包在Python3.7上，查看已安装的包显示Pandas==0.24.1 & dask-core查看工作进程上的内存消耗表明没有向工作进程发送任何内容，当我添加关键字=‘broadcast’时，我可以观察到第二个

浏览 18提问于2019-02-22得票数 0

回答已采纳

1回答

Dask distributed -创建工作者的指南

、

我刚接触dask，在设置dask分布式集群时，我不确定这样做的最佳实践是什么。在设置工作进程时，让两个工作进程都有4 1GB的内存，还是让8个工作进程都有1 1GB的内存更有效率？另外，当工作线程的数量增加时，我们还需要增加调度器的内存吗？

浏览 12提问于2019-08-14得票数 1

2回答

distributed.worker内存使用率较高，但工作进程没有要存储到磁盘的数据

、

通读完文档后，请访问 https://distributed.dask.org/en/latest/worker.html ，我仍然不清楚这个错误会对这个应用程序的结果产生什么影响。

浏览 203提问于2020-02-12得票数 6

1回答

每个工作人员有多少个dask作业

、、

如果我启动一个包含N个工作进程的dask集群，然后使用cluster.compute提交N个以上的作业，dask是尝试同时运行所有作业(通过在每个工作进程上调度一个以上的作业)，还是将这些作业排队并按顺序运行每个作业都是内存密集型的，并且提交的作业比工作线程多会导致它们都因为内存问题而崩溃。有没有一种方法可以强制dask一次只在一个worker上运行一个作业，并对其他作业进行排队？

浏览 3提问于2020-11-23得票数 0

1回答

如何在Dask分布式工作人员之间共享一个大型只读对象？

、、、、

问题关于这个问题的更多细节我有两个Dask系列Source_list和Pattern_list，分别包含700万和300万字符串。**Threads** distributed.worker -警告-内存使用率很高，但是

浏览 0提问于2019-02-09得票数 3

1回答

Dask工作进程内存不断增长

、

我正在dask分布式，tensorflow，keras设置上优化ML模型。工作进程在内存中不断增长。我在.gather()之后使用client.cancel()，但是没有效果。唯一的解决方案是重新启动工作进程。Dask分布式版本: 1.21.1

浏览 1提问于2018-04-07得票数 1

2回答

dask能从csv文件中读取数据吗？

、、、

转换可以正常工作，但是从csv文件读取不是并行完成的。它真的很慢(在SSD上一个1 1GB的文本文件大约需要30分钟，所以我猜它不是IO绑定的)。df = ddf.read_csv("data/Measurements*.csv", sep=';',

浏览 3提问于2016-10-18得票数 29

回答已采纳

1回答

在Dask映射函数中设置最大工人数

、、、、

我有一个Dask进程，它使用map函数触发100名工作人员：docker-compose up -d --scale worker=20 问题是我的机器崩溃了，因为map函数并行地触发了20个工作人员，这使得内存和我希望保持20个工作人员的配置，因为我将这些

浏览 2提问于2022-11-03得票数 3

回答已采纳

1回答

优化散射

、

for i in range(Y.shape[0])] 我可以拆分Y (这很好，因为我没有足够的内存一次加载它)，但是我的所有工作人员都需要我有足够的内存来处理它。但是我找不到任何方法来允许短内存尖峰(在反序列化过程中发生)，所以如果我设置了内存限制，保姆就会杀死我所有的工作人员。然后我所有的新员工。以此类推。所以我有三个问题：是否有一种方法可以设置允许在序列化数据进入并解压缩时出现峰值的<

浏览 2提问于2019-03-07得票数 2

回答已采纳

1回答

DaskLightGBM内存泄漏

、

我试图在相对较小的机器(32‘m内存，8核)上运行一个相对较大的DASKLightGBM任务，所以我将内存使用量限制在20’m……数据集大约有100M行，50列。learner.fit(dd_feature_009a013a_train[x_columns],dd_price_solely_y_train[y_column_now])/home/ubuntu/anaconda3/lib/python3.8/site-packages/l

浏览 4提问于2021-09-19得票数 0

2回答

嵌套的dask.compute不阻塞

、、、

dask.compute(...)应该是一个阻塞调用。然而，当我嵌套了dask.compute，并且内部的dask.compute执行I/O (如dask.dataframe.read_parquet)时，内部的and不是阻塞的。2个工作者，每个工作者有8个进程，如下所示：，那么我预计最多会有2 x因此，最终可能

浏览 11提问于2017-08-10得票数 0

1回答

DASK Memory Per Worker指南

、、

我的调度器在T2中(4 4GB/2vCPU)，我的4个工作进程也是如此。每个worker运行一个进程，一个线程和4 4GB的内存限制，即dask-worker MYADDRESS --nprocs 1 --nthreads=1 --memory-limit=4GB。然后，我将使用map_partitions来完成主要工作。这对于小的数据集很有效，但是对于100mil的数据集，我的工作人员由于没有足够的内存而不断崩溃。我在这里做错了什么？我是不

浏览 32提问于2019-09-20得票数 1

1回答

计算具有共同依赖关系的两个值时，Dask高内存使用率

、、、

我在一台机器上使用Dask (LocalCluster有4个进程，16个线程，68.56 to内存)，当我试图一次计算两个共享依赖关系的结果时，遇到了工作内存问题。在下面显示的示例中，仅用一次计算就可以很好地快速计算result，工作人员的总内存使用量最高可达1 1GB左右。但是，当使用两次计算来计算results时，当总内存使用量约为40 is时，工作人员会迅速耗尽所有内存，并开始写入磁盘。计算最终将完成，但一旦开

浏览 18提问于2021-02-27得票数 2

回答已采纳

1回答

用于numpy数组的free()的Python等价物？

、、、

我有许多需要存储为dask数组的大型numpy数组。在尝试从.npy加载每个数组，然后将其转换为dask.array时，我注意到内存使用率几乎与常规numpy数组一样多，即使在将arr加载到dask.array之后执行del arr之后也是如此。= da.from_array(arr)print(f'Array

浏览 2提问于2021-07-23得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云