Python和dask:如何在workers上调用方法而不是函数？ - 腾讯云开发者社区

python、dask

假设您想要指定Dask.array中的工作进程数，如所示，您可以设置： dask.set_options(pool=ThreadPool(num_workers)) 这对于我已经运行过的一些模拟非常有效，例如，montecarlo，但是对于一些线性代数操作，Dask似乎覆盖了用户指定的配置，例如： import dask.array as da import dask from multiprocessing.pool import ThreadPool dask.set_options(pool=ThreadPool(num_workers)) mat1 = da.random.rand

浏览 4提问于2017-02-24得票数 2

1回答

不遵守工人指令/约束(工人=‘.’，allow_other_workers=False)

dask、dask-distributed

我注意到，在提交作业和运行compute()时，尽管试图将工作限制在dask分布式集群上的特定节点(使用workers =‘.’，allow_other_workers=False)，但这些任务似乎仍然由多个工作人员完成。例如，让我们读入CSV，然后尝试总结列的内容： import dask.dataframe as dd dfut1 = client.submit(dd.read_csv, 'https://s3.amazonaws.com/nyc-tlc/trip+data/yellow_tripdata_2009-01.csv'

浏览 1提问于2019-05-16得票数 2

回答已采纳

2回答

如何在任务中启用日志

logging、machine-learning、scheduler、dask、worker

我正在运行一个dask-scheduler和两个dask-workers，一个客户端。在Python代码中，我运行的是gridsearchcv fit。我希望看到我的系统的工作人员和其他系统的工作人员之间的通信

浏览 0提问于2019-04-23得票数 0

1回答

如何在linux上设置jupyter笔记本中的dask多进程打印输出目标

printing、output、jupyter、dask

我在linux服务器上使用jupyter笔记本中的dask在多个CPU上运行python函数。python函数有标准的print语句。我希望打印的输出显示在电池下面的jupyter笔记本上。但是，所有的打印结果都显示在控制台中。谁能解释为什么会发生这种情况，以及如何使dask.function.print输出到笔记本，或控制台和笔记本。以下是该问题的简化版本： import dask import functools from dask import compute, delayed iter_list=[0,1] def iFunc(item): print('

浏览 2提问于2022-02-05得票数 0

4回答

TypeError：__dask_distributed_pack__()接受3个位置参数，但给出了4个

python、dask、dask-dataframe

我有一些代码，其中我将pandas数据帧转换为dask数据帧，并在行上应用一些操作。代码过去工作得很好，但现在似乎由于dask导致的一些内部错误而崩溃。有人知道问题出在哪里吗？示例： import dask.dataframe as dd x = pd.DataFrame(np.ones((4, 2)),columns=['a', 'b']) df = dd.from_pandas(x, npartitions=2) df.compute() ----------------------------------------------------------

浏览 26提问于2021-05-20得票数 3

2回答

具有未传递参数的Dask延迟函数调用

python、dask、configparser、dask-delayed

在使用dask.delayed调用依赖于参数的函数时，我希望更好地理解以下行为。这个问题似乎出现在一个参数文件中指定参数时，参数文件由configparser解析器读取。下面是一个完整的例子：参数文件： #zpar.ini: parameter file for configparser [my pars] my_zpar = 2. 解析器： #zippy_parser import configparser def read(_rundir): global rundir rundir = _rundir cp = configparser.ConfigPa

浏览 1提问于2020-04-02得票数 0

回答已采纳

1回答

不能用达斯克训练Keras模型吗？

dask、dask-delayed

我希望从使用Dask延迟的简单示例中可以看到，我基本上可以从scikit复制gridsearchcv --使用以下几个函数调用来学习。该模型似乎永远不适合(model.fit(.))因为循环的其余部分还在继续(pred(.))？我如何嵌套函数有问题吗？我知道有一个用于dask的gridsearchcv，但问题是我的真实模型是一个多输入的Keras，而且您不能以'X‘的形式传递一个3d数组。在没有Dask的情况下，代码的串行工作很好。下面是一个可复制的小例子： import dask import pandas as pd import numpy as np from sklear

浏览 1提问于2018-07-07得票数 0

2回答

Dask仪表板是空的

python、dask、dashboard、dask-distributed

我有几个python脚本，它们从不同的数据库运行不同的Dask任务，我使用Python多处理模块同时运行所有Python脚本。我与任务管理器检查了脚本是否并行运行，并且能够访问我的dask仪表板。然而，我的达斯克仪表盘没有显示任何东西。这是我的dask仪表盘的截图。这是我的Python代码片段示例(简化)： if __name__ == '__main__': # Setup Dask Distributed Client client = Client(n_workers=4, threads_per_worker=4) ""

浏览 7提问于2022-03-01得票数 0

回答已采纳

1回答

Dask分布式:介绍每个工作人员初始化任务的图树状结构

python、dask

在分布式dask中，任务通过调度器分布在集群节点上。我希望介绍每个节点对提交给节点的任务的依赖关系。简单地说，我要执行的计算操作需要：将数据预加载到每个节点上的GPU上。在每个节点上执行GPU计算，并在块dask数组中对其他数据执行GPU计算。我还想在不同的数据集中多次排队(1)和(2)。我尝试把它设置为一个最小的例子： from __future__ import print_function import dask.array as da from dask.base import tokenize from distributed import (Client,

浏览 1提问于2017-06-15得票数 3

回答已采纳

1回答

群集上的dask-yarn :无法连接到应用程序

python、python-3.x、hadoop-yarn、dask、dask-distributed

我正在尝试使用dask-yarn在集群上分发Python作业。我使用以下代码来创建集群： from dask_yarn import YarnCluster cluster = YarnCluster(environment='.conda/envs/myconda', worker_vcores=2, worker_memory='4GB', n_workers=4) client = Client(cluster) cluster.shutdown() 我会假设你需要更多的信息来确保它与纱线相连。错误信息如下： -------------------

浏览 16提问于2019-06-12得票数 0

1回答

如何在spark集群中使用Prefect的资源管理器

apache-spark、pyspark、prefect

我一直在使用Prefect进行工作流管理，但在使用Prefect的资源管理器建立和停止spark会话时遇到了麻烦。我浏览了Prefects文档，下面提供了一个使用Dusk的示例： from prefect import resource_manager from dask.distributed import Client @resource_manager class DaskCluster: def init(self, n_workers): self.n_workers = n_workers def setup(self): &

浏览 23提问于2021-08-20得票数 2

2回答

作业完成后终止dask工作进程

python、parallel-processing、cluster-computing、dask

我正在尝试使用集群上的dask，并且我感兴趣的是在所有工作完成后立即终止所有工作。我曾尝试使用retire_workers方法来实现这一点，但这似乎并没有杀死工作人员。下面是一个例子。 import time import os from dask.distributed import Client def long_func(x): time.sleep(2) return 1 if __name__ == '__main__': C = Client(scheduler_file='sched.json') res =

浏览 36提问于2021-02-05得票数 1

回答已采纳

1回答

在一个线程调度程序中，一个dask工作者使用多少个线程？

python、dask

在使用dask运行测试用例时，我看到了400%+ CPU的使用情况，尽管我以多种方式指定了一个工作人员。在OSX中的活动监视器上，我看到两个进程，一个有一个线程，另一个有带有ThreadPool的8个线程。我看到两个进程，一个线程和4个线程与single-threaded。知道这些线程是干什么用的吗？相关： import dask import dask.array as da from dask.diagnostics import Profiler, ResourceProfiler, CacheProfiler, visualize from multiprocessing.pool

浏览 1提问于2018-11-07得票数 0

回答已采纳

1回答

如何使用dask分布式？

python、dask、dask-distributed

我试图通过查看代码示例和文档来使用Dask，并且很难理解它是如何工作的。正如文档中所建议的，我正在尝试使用分布式调度程序(我还计划在HPC上部署我的代码)。我试过的第一件简单的事情是： from dask.distributed import Client import dask.bag as db if __name__ == '__main__': client = Client(n_workers=2) print("hello world") hello world印刷了三次，我想是因为工人们。我假设除非调用计算，否则不会启动工作人员。我可

浏览 5提问于2021-05-20得票数 0

回答已采纳

1回答

如何在dask-distributed中使用`client.start_ipython_workers()`？

ipython、dask、dask-distributed、ipython-parallel、ipython-magic

我正在尝试让工作人员从他们的ipython内核输出一些信息，并在ipython会话中执行各种命令。我尝试了文档中的示例和ipyparallel示例，但没有尝试第二个示例(使用ipython magics)。我无法让工作人员执行任何命令。例如，我被以下问题卡住了： from dask.distributed import Client client = Client() info = client.start_ipython_workers() list_workers = info.keys() %remote info[list_workers[0]] 最后一行返回一个错误： --

浏览 15提问于2021-02-12得票数 0

1回答

如何从Dask Jupyter笔记本中持久化笔记本？

python、docker、docker-compose、jupyter-notebook、dask

我正在运行Docker编写文件(docker-compose up --force-recreate)来启动Dask调度程序、workers和Dask Jupyter notebook。我已经按如下方式添加了卷： notebook: image: daskdev/dask-notebook depends_on: - scheduler - worker ports: - "8888:8888" environment: DASK_SCHEDULER_ADDRESS: "tcp://sc

浏览 0提问于2020-07-10得票数 0

1回答

如何在集群模式下为dask设置工作节点上的线程数？

python-3.x、dask

我有一个达斯克时间表和4个工人。每个工作人员有4个cpu和8GB。当我指定要在工作人员中运行的线程数时，它不起作用。它总是默认为cpu数(4)。我就是这样做的 with dask.config.set(pool=ThreadPool(8)): bag = db.from_sequence(archives) bag.map_partitions(extract_archives).compute() 当我更改使用number_workers时，它仍然是一样的。 with dask.config.set(num_workers=8): bag = db.from_sequenc

浏览 0提问于2018-08-10得票数 1

回答已采纳

1回答

将RAPIDS CUML随机林模型部署到无法安装RAPIDS/CUML的Windows虚拟机

python、machine-learning、random-forest、machine-learning-model、rapids

我需要在不能安装rapids/cuml的GPU-less Windows虚拟机上对cuml.dask.ensemble.RandomForestClassifier执行推断。我已经考虑过使用treelite，所以我必须将模型导入树脂树并生成一个共享库(windows的.dll文件)。之后，我将使用treelite_runtime.Predictor导入共享库，并在目标机器上执行推理。问题是，我不知道如何将RandomForestClassifier模型导入树脂层来创建树脂层模型。我曾尝试使用'convert_to_treelite_model‘，但获得的对象不是树脂树模型，我不

浏览 66提问于2020-11-17得票数 2

回答已采纳

1回答

如何在Python Dask数据帧中执行位置索引

python、pandas、dataframe、dask

我一直在使用Dask Concurrent.futures ，但我在使用(过时的) 时遇到了一些问题。具体地说，使用位置索引将dask数据帧分成测试/训练拆分： train = dfs[:-1] test = dfs[-1] 我也尝试过，但都无济于事： train = dfs.loc[:-1] test = dfs.loc[-1] 这给了我一个错误： KeyError Traceback (most recent call last) /opt/anaconda/lib/python3.5/site-packages/panda

浏览 13提问于2018-02-14得票数 4

1回答

分布式Dask :将多维矩阵简化为距离矩阵

python、arrays、dask、distance、dask-distributed

我想要计算一个大距离矩阵，基于高维向量。例如，我有1000个实例，每个实例用长度为10的20个向量表示，每个实例之间的距离由与每个向量相关联的20个向量之间的平均距离来表示。所以我想从1000乘20乘10矩阵到1000乘1000 (下三角)矩阵。由于这些计算可能会变慢，所以我希望使用Dask distributed来阻止该算法，并将其扩展到几个CPU上。前言 import itertools import random import numpy as np import dask.array from dask.distributed import Client 距离函数由 def dist

浏览 5提问于2022-06-26得票数 0

回答已采纳

3回答

如何在Airflow中配置DaskExecuter

python、airflow、dask

我想为Airflow中的分布式DAG配置Dask。我读过和，但我不明白它是如何工作的。我有两个Apache Aiflow服务器，在哪里运行dask-shedulers和dask-workers，在第一个服务器崩溃时，第二个服务器上的所有东西都自动工作？据我所知，Airflow将任务放在任务调度程序中。我不明白如何在两台服务器上成为dask-shedulers的朋友。我不明白为什么需要dask-worker和它做什么，我认为这是某种不必要的组件。我不想使用CeleryExecutor并为芹菜配置RabbitMQ或Redis

浏览 0提问于2018-10-11得票数 2

1回答

Dask包的运行速度比串行计算慢得多

dask、dask-distributed

我有一个非常大的数组(这里有两百万个单元格)，我想为数组中的每个单元格执行一个工作流。下面是我的测试代码： import numpy as np import dask from dask.distributed import Client, LocalCluster import dask.bag as db # invoke 8 workers cluster = LocalCluster(n_workers=8) client = Client(cluster) # test workflow to be applied to each cell. The real case is

浏览 17提问于2021-08-25得票数 0

1回答

dask进程调度程序的性能不佳。

python、parallel-processing、multiprocessing、dask

我定义了一个cpu绑定函数。 def countdown(n): while n > 0: n -= 1 在我的笔记本电脑上运行countdown(50000000)需要2.16秒。首先，我测试multiprocess并行化。 from multiprocess import Pool with Pool(2) as p: l=p.map(countdown,[50000000,50000000]) 需要2.46秒，这是一个很好的并行化。然后，我测试了dask进程调度器并行化。 l=[dask.delayed(countdown)(50000000),

浏览 1提问于2021-08-03得票数 1

1回答

将数据分散到dask集群工作人员:未知地址方案“网关”

python、dataframe、jupyter-notebook、dask、dask-distributed

我遵循在上找到的代码(“块然后分散”部分)，当我试图将一个pandas.DataFrame分散到工作人员时，我得到了一个奇怪的错误。如果这件事重要的话，我正在工作。我不知道这个错误是什么意思，这是相当神秘的，所以任何帮助都会非常感谢。 from dask_gateway import Gateway import dask.dataframe as dd import dask gateway = Gateway() options = gateway.cluster_options() cluster = gateway.new_cluster(cluster_options=opti

浏览 3提问于2022-01-19得票数 2

回答已采纳

1回答

Dask舵图-如何创建Dask-CUDA-Worker节点

kubernetes、dask、worker

我安装了带有修改过的values.yaml的Dask Helm Chart来拥有10 workers，但是我想创建Dash CUDA Workers来利用我的multi-node集群上的NVIDIA，而不是Dask Workers。我尝试按如下方式修改values.yaml，以获得Dask CUDA workers而不是Dask Workers，但是worker pod能够启动。我已经按照官方说明在Kubernetes上的所有节点上安装了NVIDIA GPU，所以我不确定DASK需要看到什么才能创建Dask-Cuda-Workers。 worker: name: worker im

浏览 24提问于2020-06-30得票数 0

1回答

尽管我使用的是建议的方法，Dask还是输出了使用client.scatter的警告

python、python-3.x、dask、dask-distributed

在dask distributed中，我收到了以下警告，这是我意想不到的： /home/miniconda3/lib/python3.6/site-packages/distributed/worker.py:739: UserWarning: Large object of size 1.95 MB detected in task graph: (['int-58e78e1b34eb49a68c65b54815d1b158', 'int-5cd ... 161071d7ae7'],) Consider scattering large objects

浏览 9提问于2018-02-22得票数 6

回答已采纳

2回答

python dask to_parquet占用大量内存

python、dataframe、dask、parquet、fastparquet

我正在使用python 3和dask来读取拼图文件的列表，做一些处理，然后将它们全部放入一个新的联合拼图文件中供以后使用。该过程使用了如此多的内存，以至于它似乎试图在将所有拼图文件写入新的拼图文件之前将它们读取到内存中。我正在使用下面的代码 def t(path): import dask.dataframe as dd ddf = dd.read_parquet(path) ddf["file"] = path return ddf b = bag.from_sequence(parquet_files) with ProgressBar

浏览 107提问于2019-08-04得票数 2

1回答

LocalCluster调度程序没有使用所有内核，并且比默认线程调度程序慢吗？

dask、dask-distributed

我使用dask数组来加速一台机器(4核或32核)上的计算，使用默认的“线程”调度程序或dask.distributed LocalCluster (线程，没有进程)。考虑到dask.distributed调度器是新的，并且附带了一个很好的仪表板，我希望使用这个调度器。但是，我发现LocalCluster调度程序比默认调度程序慢(因子2或更多)。LocalCluster调度程序也没有充分利用所有请求的核心，偶尔在32核机器上只使用一个或几个内核。问:这是预期的行为吗？如果没有，我可以做些什么来提高LocalCluster调度程序的性能？下面是我用于测试的代码、示例输出(运行在4核计算机上)

浏览 1提问于2021-08-31得票数 1

1回答

helm dask多节点

dask、kubernetes-helm

我有一个由两台机器组成的kubernetes集群。我希望一台机器作为scheduler，两台机器都作为workers.我按照官方说明安装了helm dask：helm install --name my-release dask/dask然而，我注意到kubernetes dashboard上只有一个节点上安装了schedule和workers，而不是两个。如何使用helm dask在两个节点上创建工作进程？即使我选择了dask-cuda-worker选项，它也不会选择使用nvidia GPU的计算机。有没有人能帮我在两个节点上找个工人？

浏览 2提问于2020-06-15得票数 0

1回答

限制核心数Dask不起作用？

python、dask、dask-distributed

尽管我将内核数量设置为24个，但所有120个内核都在100%使用中。 from multiprocessing.pool import ThreadPool import dask dask.config.set(pool=ThreadPool(24)) from dask.distribted import Client client = Client(processes=True, threads_per_worker=1, n_workers=24, memory_limit='20GB') client ? ?

浏览 16提问于2019-04-05得票数 1

1回答

如何读取数据并删除坏行

python、pandas、bigdata、data-science、dask

我试图使用dask聚合一个包含多行坏数据的大型(66 of )数据库。由于dask没有删除坏行的功能，所以我第一次将所有数据作为熊猫数据读取，并删除坏行。然后，我将此转换为dask数据帧。我的代码如下：导入dask.dataframe作为dd从dask.distributed导入客户端导入熊猫 #Groups the average Thresholds by NEATGeneration and finds the mean, standard deviation, minimum and maximum of the data def group(df): res = df.g

浏览 2提问于2020-02-21得票数 1

1回答

如何在分布式分布式环境下组合任务

python、dask、joblib、dask-distributed

我正在尝试在线程化的dask分布式集群中运行一个lock并行循环(见下面的原因)，但是由于GIL-lock，我无法获得任何加速。下面是一个例子： def task(x): """ Sample single-process task that takes between 2 and 5 seconds """ import time import random dt = random.uniform(2,5) time.sleep(dt) return x+dt def composite_tas

浏览 0提问于2018-10-21得票数 0

2回答

在EC2实例中使用Dask会抛出“无法收集1键.”

amazon-ec2、dask

我启动了几个EC2实例，并在conda中安装了dask，在各自的实例中启动了调度程序和worker，调度程序能够接收来自工作人员的连接。但是，在启动客户端并收集结果(例如x.result())之后，会抛出错误警告-无法收集一个密钥，重新安排和调度程序和工人之间的连接被终止。在这个问题中，和中的错误几乎是相同的。不幸的是，很清楚如何用新的标志来解决这个问题。我的会议就是这样的：调度器-终端 >>> from dask.distributed import Client >>> client = Client('<domain-sc

浏览 0提问于2018-07-16得票数 2

回答已采纳

1回答

Dask的Client()函数中参数的默认值是多少？

python、memory、memory-management、dask、dask-distributed

我正在尝试理解Dask的Client()函数参数。假设我使用Dask的Client()函数编写了以下代码： from dask.distributed import Client import joblib client = Client() 如果我没有为Client()函数中的参数指定任何值，那么参数的默认值是什么： (i) n_workers (ii) threads_per_worker (iii) memory_limit 据我所知，Python具有防止多线程的全局解释器锁(GIL)功能。如果是这样的话，为什么当多线程在Python中被阻止时，达斯克-ML的Client()函数有参数

浏览 1提问于2020-05-28得票数 1

回答已采纳

1回答

如何使用dask.distributed并行嵌套循环？

python-3.x、parallel-processing、dask、dask-distributed、dask-delayed

我试图使用这样的方式来使用dask分发来并行一个嵌套循环： @dask.delayed def delayed_a(e): a = do_something_with(e) return something @dask.delayed def delayed_b(element): computations = [] for e in element: computations.add(delayed_a(e)) b = dask.compute(*computations, scheduler='distributed

浏览 1提问于2019-03-10得票数 0

回答已采纳

1回答

在dask_jobqueue中，如何向job_script添加额外行？

dask

我正在配置dask以在HPC集群上运行。我设置了一个客户机，如下所示：首先修改~/.config/dask/*.yaml，然后运行如下代码： from dask_jobqueue import SLURMCluster cluster = SLURMCluster() cluster.scale(100) # Start 100 workers in 100 jobs from distributed import Client client = Client(cluster) print(cluster.job_script()) 结果的job_script如下所示：

浏览 0提问于2019-05-15得票数 1

回答已采纳

1回答

是否可以在Dask中为特定任务选择工作人员？

python、dask、dask-kubernetes

我使用Dask在Kubernetes集群上运行了一个进程，该进程由两个map-reduce阶段组成，但是这两个节点上的map都可能向每个worker下载大量的大文件。为了避免两台不同的机器在两个不同的map步骤上处理相同的文件子集，是否可以确定地选择哪些工作人员为相同的作业获取哪些参数？从概念上讲，我想要的可能是： workers : List = client.get_workers(); # ^^^^^^^^^^^ filenames : List[str] = get_filenames(); # input data to process

浏览 4提问于2020-05-28得票数 1

1回答

不同墙面时间的达斯克工人

python、dask、slurm、dask-distributed

我在一个小型SLURM集群上使用dask队列启动多个2-5分钟的作业(使用子进程)。我运行了几个1000个工作总数，我想偶尔让我的工人死亡，并被拖曳通过SLURM对其他用户友好。在达斯克-作业队列文档站点上有一个段落：因此，为了快速获得一个大型集群，我们建议在一个节点上分配一个dask-调度程序进程，这个节点有一个较小的壁时间(会话的预定时间)，然后分配许多具有较短的墙时间(大约30分钟)的小型单节点dask工作者作业，这些作业调度器中的额外空间很容易被占用。由于您需要更多的计算，您可以添加更多这些单节点作业，或者让它们过期。这听起来很像我想做的事情，但我的问题是:如何配置它？如

浏览 0提问于2019-03-14得票数 1

回答已采纳

1回答

运行df.to_csv()时出现任务内存错误

python、pandas、dask

我正在尝试索引并保存无法加载到内存中的大型csvs。我的代码加载csv，执行计算，并通过新值索引工作，没有问题。一个简化的版本是： cluster = LocalCluster(n_workers=6, threads_per_worker=1) client = Client(cluster, memory_limit='1GB') df = dd.read_csv(filepath, header=None, sep=' ', blocksize=25e7) df['new_col'] = df.map_partitions(lambda

浏览 39提问于2019-01-31得票数 3

1回答

在本地使用Dask时，是否需要初始化客户端？

python、dask、dask-dataframe

我看过Dask教程，它们总是从客户端的初始化开始： from dask.distributed import Client client = Client(n_workers=4) 我最感兴趣的是在我的笔记本电脑上使用Dask的read_csv函数来并行读取DataFrames。 import dask.dataframe as dd df = dd.read_csv('trainset.csv').compute() 尽管设置了n_workers=4，Dask在读取csv时会使用所有内核。初始化客户端和不初始化客户端都是一样的。当我在本地使用Dask并且仅用于读取文件时，

浏览 20提问于2020-04-25得票数 0

1回答

dask如何定义一个自定义(时间折叠)函数，该函数并行操作并返回具有不同形状的数据

pandas、dataframe、dask、dask-distributed、dask-delayed

我正在尝试实现一个时间折叠函数，以便将其“映射”到dask dataframe的各个分区，后者反过来会更改所述数据的形状(或者用更改的形状生成一个新的数据帧)。这就是我所得到的结果。在计算中返回的结果'res‘是由3个延迟对象组成的列表。当我试图在一个循环(最后两行代码)中计算它们中的每一个时，结果是一个" TypeError：'DataFrame‘对象不是可调用的“，在遍历之后，我还尝试更改函数中的输入DF (inplace)，而没有返回值，这会导致与NoneType类似的TypeError。我遗漏了什么？另外，看一下，我觉得有必要将单独计算的(折叠的)分区减少到一

浏览 0提问于2018-06-28得票数 4

1回答

达斯克分布，无法启动工人

dask、dask-distributed

在某些情况下，dask集群似乎在重新启动时挂起。为了模拟这种情况，我编写了一段愚蠢的代码： import contextlib2 from distributed import Client, LocalCluster for i in xrange(100): print i with contextlib2.ExitStack() as es: cluster = LocalCluster(processes=True, n_workers=4) client = Client(cluster) es.callback(c

浏览 0提问于2018-12-31得票数 0

回答已采纳

1回答

如何在linux中控制每个工作人员的python线程数？

python、multithreading、multiprocessing、dask、dask-distributed

在linux中，我试图在多进程但每个进程设置单线程的情况下使用dask本地集群，但到目前为止失败了： from dask.distributed import LocalCluster, Client, progress def do_work(): while True: pass return if __name__ == '__main__': cluster = LocalCluster(n_workers=2, processes=True, threads_per_worker=1) client = Client

浏览 6提问于2022-08-31得票数 0

回答已采纳

1回答

日志在通过客户端提交作业后立即显示。

python、dask、scheduler、dask-distributed、dask-delayed

将立即显示通过客户端提交的函数的日志。相反，预期日志将显示在client.gather(futures)上。预期的行为可以通过延迟而不是期货来实现。下面是复制问题的代码： from dask.distributed import Client client = Client(processes=False, n_workers=2) def inc(x): warning(f"{x}") return x + 1 output=[] for x in [1, 2, 3, 4, 5]: a = client.submit(inc, x) o

浏览 6提问于2022-09-19得票数 0

1回答

Dask.distributed集群管理

python、dask、dask-distributed

我正在工作中设置Dask集群(30台机器，平均每个核心8台)。人们只使用一部分的CPU能力，因此dask-workers将在低优先级的背景上运行。所有工作人员都在我的主节点上收听dask-scheduler。如果我使用它的人使用它，那么它的工作非常完美，但是它将被几个人以并发的方式使用-所以我需要能够管理这个集群：验证用户，拒绝未知确定谁提交了哪些工作限制每个用户提交的作业数量限制每个作业的计算超时杀了任何管理员的工作 dask.distributed开箱即用提供了上面描述的一些功能。你能给我一些解决方案的建议吗(可能是混合Dask +什么的)？

浏览 0提问于2019-01-11得票数 0

2回答

试图在当前进程完成其引导阶段之前启动新进程

python、dask、dask-distributed

我是dask的新手，我发现拥有一个可以让并行化变得容易的模块是非常好的。我正在做一个项目，在这个项目中，我能够在一台机器上将循环并行化为。然而，我想转到dask.distributed。我对上面的类应用了以下更改： diff --git a/mlchem/fingerprints/gaussian.py b/mlchem/fingerprints/gaussian.py index ce6a72b..89f8638 100644 --- a/mlchem/fingerprints/gaussian.py +++ b/mlchem/fingerprints/gaussian.py @@ -6,7

浏览 0提问于2019-03-08得票数 19

回答已采纳

1回答

在GCP中，哪里可以看到由于缺乏权限而被拒绝的API请求？

google-cloud-platform、dask、dask-distributed、google-iam

我的问题在技术上与上下文无关，但为了清楚起见，我介绍它。 # export GOOGLE_APPLICATION_CREDENTIALS="/home/raffael/repos/dask/playground-310111-1d035231463d.json" from dask_cloudprovider.gcp import GCPCluster cluster = GCPCluster( projectid="project_id", n_workers=1, source_image="projects/ubun

浏览 0提问于2021-04-08得票数 1

回答已采纳

1回答

当使用dask本地时，我得到了“错误-工作人员没有承诺的密钥”

python、jupyter、distributed、dask

我有一个跳线笔记本，配置为使用dask本地分布式调度程序。 #Start Dask client = Client( n_workers=6, threads_per_worker=4, memory_limit='8GB', processes=True, ) client 当我开始使用dataframe时，我会得到红色错误输出，其中包含ERROR - Workers don't have promised key搜索此错误导致帮助远程集群。出什么事了？

浏览 0提问于2019-07-10得票数 1

回答已采纳

1回答

在python中运行ImportError代码时，使用SageMath会抛出SageMath

python、dask、sage

这个问题与我的非常相似，是由其中一个评论提示的。最近，我一直试图使用Dask并行化一些代码。代码涉及SageMath中的计算，但似乎每当我在函数中使用Sage代码时，它就会抛出一个ImportError，即使Sage已经成功加载。我想知道为什么我要得到一个ImportError，即使Sage似乎已经成功加载，更重要的是，如何修复它。下面是我遇到的一个基本例子。当我运行这个： import time from sage.all import * from dask import delayed from dask.distributed import Client client = Cl

浏览 3提问于2021-08-28得票数 2

回答已采纳

1回答

Read_json()任务是并行的吗？

python、bigdata、dask

我有下面的代码。使用dask distributed读取100个json文件：(Workers:5核:5内存: 50.00 GB) from dask.distributed import Client import dask.dataframe as dd client = Client('xxxxxxxx:8786') df = dd.read_json('gs://xxxxxx/2018-04-18/data-*.json') df = client.persist(df) 当我运行代码时，我只看到一个worker负责read_js

浏览 8提问于2019-04-16得票数 2