Dask Distributed -用于监控内存使用的插件

文章/答案/技术大牛

发布

1回答

、

我有一个分布式Dask集群，我通过Dask分布式客户端将大量工作发送到该集群。在发送完一堆工作后，我希望得到一份报告或其他东西，告诉我每个工作人员的内存使用峰值是多少。https://docs.dask.org/en/latest/diagnostics-distributed.html 谢谢!最好的

浏览 18提问于2021-02-06得票数 1

2回答

如何在每个Dask子进程中创建数据库连接引擎，以并行数千个sql查询，而无需在每个查询中重新创建引擎

、、、

对于数据库中的数千个sql查询，我需要尴尬地并行处理获取作业。以下是简化的示例。然后我试着用dask像这样并行它。dask.config.set(scheduler='processes')dbdata=db.from_sequence([str(v) for v in所以我想这样的方式一定更优雅：dask.config.set(scheduler='

浏览 6提问于2020-03-17得票数 2

回答已采纳

1回答

获取Dask分布式客户端的Dask诊断值

、

有什么方法可以获取Dask诊断数据，而不是Dask.distributed client的仪表板？ Dask已经提供了一个不错的Bokeh dashboard，它绘制了相当多的诊断信息。然而，我想要的不是情节，而是它们的价值。与时间戳、进度值、cpu和内存使用类似。我希望将这些值存储在数据库中，以供我自己进行监视。到目前为止，我已经尝试使用函数Dask.d

浏览 2提问于2019-07-03得票数 1

1回答

显示dask.compute(something)调用的进度*

、、、

我使用Dask在我的代码上有以下结构： @dask.delayed services = data.service_id r = calculate(parts[parts.quotation_id == qid]) output.append(r) 事实证明，当我在output列表上调用dask.computeDiagnostic UI没有“捕获”这个操

浏览 49提问于2021-01-08得票数 0

回答已采纳

1回答

在使用Dask-ML时，如果内存使用量不断超出，该怎么办？

、、、、

我正在使用Dask-ML来运行一些代码，这些代码在训练过程中使用了相当多的RAM内存。训练数据集本身并不大，但它是在训练期间使用相当多的RAM内存。即使我尝试对n_jobs使用不同的值，我仍然收到以下错误消息 distributed.nanny - WARNING - Worker exceeded 95% memory budget.Ps:我也试过使用Kaggle内核(它允许高达

浏览 21提问于2020-05-28得票数 0

1回答

Read_json()任务是并行的吗？

、、

使用dask distributed读取100个json文件：(Workers:5核:5内存: 50.00 GB) from dask.distributed import Client df = dd.read_json('gs://xxxxxx/2018-04-18&#x

浏览 8提问于2019-04-16得票数 2

1回答

木星中的Array.compute()峰值存储器

、、、、

我正在使用dask开发一个分布式集群，当将结果返回到本地进程时，我注意到了峰值内存消耗。在计算过程中，达斯克是否有任何副本？或者木星实验室需要复制？import dask.arrayimport

浏览 2提问于2022-03-04得票数 1

回答已采纳

1回答

在dask包上顺序迭代

、、

我需要将一个非常大的dask.bag的元素提交给一个非线程安全的存储，即我需要像这样的东西 store.add(x) 我不能使用compute，因为包太大了，无法放入内存我需要更多像distributed.as_completed这样的东西，但它适用于包包，而distributed.as_completed做不到。

浏览 2提问于2017-12-19得票数 3

回答已采纳

1回答

在dask的LocalCluster中，有一个参数memory_limit。我在文档(https://distributed.dask.org/en/latest/worker.html#memory-management)中找不到关于限制是针对每个工作线程、每个线程还是针对整个集群的详细信息这可能至少在一定程度上是因为我很难理解关键字是如何传递的。memory_target_fraction=0.95,

浏览 45提问于2021-10-04得票数 2

回答已采纳

1回答

Dask调度程序退出，输出为“ddf.persist()”上的“Killed”。

、

我对DASK还是个新手，这一点很明显……我正在尝试运行一个分布式dask设置，其中1个节点用于调度器，并且有足够的工作节点来容纳内存中的数据--在本例中，我使用了15个工作节点。我已经将数据复制到工作节点，但是在我的客户机上没有可用的数据，因此我像这样延迟了数据的加载：import dask.dataframe as dd from dask</e

浏览 7提问于2019-11-18得票数 0

1回答

LocalCluster调度程序没有使用所有内核，并且比默认线程调度程序慢吗？

、

我使用dask数组来加速一台机器(4核或32核)上的计算，使用默认的“线程”调度程序或dask.distributed LocalCluster (线程，没有进程)。考虑到dask.distributed调度器是新的，并且附带了一个很好的仪表板，我希望使用这个调度器。但是，我发现LocalCluster调度程序比默认调度程序慢(因子2或更多)。LocalCluster调度程序也没有

浏览 1提问于2021-08-31得票数 1

2回答

读取拼花时，dumps_msgpack ImportError的任务纱线作业失败

、、、、

我正在尝试使用具有一个主节点和一个工作节点的AWS EMR集群上的dask-yarn对一个小的parquet文件(10K记录)进行简单的读取和计数，这两个节点都是m5.xlarge实例。我正在尝试执行以下代码来测试我的集群： import os

浏览 96提问于2021-04-29得票数 2

回答已采纳

2回答

Dask数据帧大于内存

、、

我是Dask的新手，我发现它非常有用，但我有一个问题还没能解决。问题是，在此删除之后，数据集仍将大于内存。这是我的代码：import dask.dataframe as dd results

浏览 5提问于2020-10-16得票数 2

1回答

触发Dask工作进程释放内存

、

我正在使用Dask分发一些函数的计算。我的总体布局如下所示： from dask.distributed import Client, LocalCluster, as_completed cluster = LocalCluster，对于大量的作业，我往往会达到内存限制。Process memory: 1.15 GB -- Worker memory limit: 1.43 GB 似乎每个未来都不会释放它的

浏览 55提问于2019-04-30得票数 4

回答已采纳

1回答

内存和Dask分布式问题:将数据加载到内存和数据泄漏的多倍大小不会发生

、、、

我正在使用distributed和Datashader运行一些简单的测试，但是我遇到了两个问题，我都无法解决，也不明白为什么会发生这种情况。例如，我只使用一个工作人员和一个文件运行了前面的代码。尽管有一个文件是11 is，但Dask仪表板显示了加载到内存中的大约50 is。x','y',...], engine='pyarrow') 虽然这是可行的(因为我只使用2列来绘制

浏览 4提问于2020-07-14得票数 2

1回答

Dask:从Python设置多处理方法

、

我在Dask.distributed的Client()接口文档中没有看到指示如何设置此属性的方法。

浏览 73提问于2018-06-22得票数 3

回答已采纳

2回答

不能用dask将csv读取为dataframe的dataframe与fb先知匹配

、、、、

pd.options.mode.chained_assignment = None我尝试过多种组合使用本地网络的工作人员、线程和可用内存、可用storage_memory，甚至尝试完全不使用<e

浏览 2提问于2020-06-08得票数 0

1回答

到python日志记录的捕捉sklearn输出

、、、

当使用sklearn时，我想看到输出。因此，我在可用时使用verbose。但是，我想要在并行环境下运行，joblib也直接使用sys.stdout和sys.stderr。因此，我的尝试(见下文)不起作用。Loky用于多处理，我的上下文管理器只在主进程中捕获stdout和stderr。如何捕获子进程的

浏览 14提问于2022-11-30得票数 0

2回答

Dask分布式客户端-错误- 10.00秒后无法重新连接到计划程序，正在关闭客户端

、、、、

我正在用Dask_ML做一个非常简单的数据转换，我得到了这个错误，我想知道是否有人遇到过这个问题。看起来像是可以修改的系统设置吗？419.0 ... 76.0 56.0 159.0 16.0 0.0 0.0 213.0 123.0 4.0 3.0distributed.utils - ERROR - Traceback (most r

浏览 39提问于2020-02-06得票数 0

1回答

如何在Dask分布式工作人员之间共享一个大型只读对象？

、、、、

是否有一种方法只将对象加载到内存中，并让工作人员同时使用该对象？我有两个Dask系列Source_list和Pattern_list，分别包含700万和300万字符串。我试过的东西 2.85 GB -- Worker memory limit: 3.00 GB 使用具有内存限制<

浏览 0提问于2019-02-09得票数 3

点击加载更多