使用Dask中的所有内核

文章/答案/技术大牛

发布

1回答

限制核心数Dask不起作用？

、、

尽管我将内核数量设置为24个，但所有120个内核都在100%使用中。from multiprocessing.pool import ThreadPooldask.config.set(pool=ThreadPool(24)) from dask.distribted

浏览 16提问于2019-04-05得票数 1

1回答

我正在开发一个拥有24个vCPU的google云计算实例。运行的代码如下所示from distributed import ClientlogdidHttp') .categorize()) 当我运行它时(这也是我在加载数据后所做的后验数

浏览 16提问于2017-03-08得票数 5

回答已采纳

1回答

通过dask分布式和gensim有效使用多核

、、、、

我有一个很大的数据帧，不能放入内存。因此，我在Python语言中通过dask (分布式)访问它。我想根据数据帧中一列的条目，用gensim包训练一个Word2Vec/Doc2Vec模型，这就是为什么我构建了一个像this question一样的迭代器。现在，gensim使用多个内核进行训练，我需要指定其数量，类似地，dask也允许我使用多个内核。到目前为止，我把所有可用的内核</e

浏览 21提问于2020-01-14得票数 0

1回答

Datashader中的分段绘图-数据超过我的内存

、

然而，所有的示例都必须在具有大量ram的机器上完成，或者只是不使用那么大的数据集。因为我在做大图的时候会炸掉我的16 do的内存。需要明确的是，它不是在绘图期间，而是实际上通过从数据库读取失败了-然而，由于Datashader是一个用于绘制非常大的数据的库，所以必须有一些方法来代替在df中加载所有内容并传递它？我现在的代码是： from colorcet import fire i

浏览 19提问于2020-06-11得票数 1

1回答

在本地使用Dask时，是否需要初始化客户端？

、、

我看过Dask教程，它们总是从客户端的初始化开始： from dask.distributed import Client df = dd.read_csv('trainset.csv').compute

浏览 20提问于2020-04-25得票数 0

1回答

DASK Memory Per Worker指南

、、

我目前正在致力于将一些遗留分析重构到Python/DASK中，以展示其作为未来解决方案的有效性。我正在尝试设置一个演示场景，我遇到了内存问题，希望得到一些建议。我的调度器在T2中(4 4GB/2vCPU)，我的4个工作进程也是如此。然后，我将使用map_partitions来完成主要工作。这对于小的数据集很有效，但是对于100mil的数据集，我的工作人员由于没有足够的内存而不断

浏览 32提问于2019-09-20得票数 1

2回答

如何在Python (Pandas)中对超大数据集进行分块处理，同时考虑整个数据集的函数应用？

、、、、

我在论坛上读到了许多关于类似主题的帖子。然而，我在这里问的，我相信这不是一个重复的问题。我正在读取CSV格式的very large dataset (22 gb)，有3.5亿行。基于that link提供的解决方案，我正在尝试以块为单位读取数据集。我当前的代码如下所示。但是，声明为chunk_size的groupby(['id', 'company'])[['purchasequantity', '

浏览 36提问于2020-12-04得票数 1

回答已采纳

1回答

关闭<TCP中的悬挂流如何重新启动LocalCluster？

在使用启动dask LocalCluster时 from dask.distributed import Client client = Client() 在中断jupyter内核并重新运行单元之后，dask一次又一次地显示以下警告。WARNING - Closing dangling stream in <TCP local=tcp://127.0.0.1:49408 remote=tcp://127.0.0.1:37487> 重启内核</e

浏览 8提问于2019-12-20得票数 1

回答已采纳

2回答

并行处理与dask阵列相结合处理多个图像栈

、、、

我有一个包含n h5文件的目录，每个目录都有要过滤的m图像堆栈。对于每幅图像，我将使用dask并行阵列运行滤波(高斯和拉普拉斯)，以加快处理速度()。我将通过apply_parallel()函数在scikit-映像中使用dask数组。1) h5文件的顺序处理和用于dask处理的所有

浏览 6提问于2016-02-10得票数 2

回答已采纳

1回答

用dask.bag.from_sequence计算核密度估计

、

我正在尝试计算一个相当大的二维数据集的核密度估计到。函数scipy.stats.gaussian_kde需要很长时间，所以我想我可以使用dask (v0.15.2)来更快地得到结果。然而，我不确定我的方法是否真的得到了任何加速。下面是一个示例：from scipy.stats import gaussian_kde xy = np.random.randdb.from_sequence(chunker)

浏览 1提问于2017-12-11得票数 0

回答已采纳

1回答

使用脚本中的Dask

、、

可以从python脚本运行dask吗？from dask.distributed import Client如所有教程中所述。但是，如果我将这些代码行写在script.py文件中并以python script.py方式执行它，它会立即崩溃。我发现了另一个选择，那就是使用MPI：from dask_mpi import initialize from

浏览 0提问于2019-08-20得票数 2

1回答

如何使用所有的cpu核心使用达克？

、、

我有一个35000排以上的熊猫系列。我想用达斯克让它更有效率。然而，我的达斯克代码和熊猫代码是同时采取的。最初的"ser“是熊猫系列，fun1和fun2是在各个系列中执行模式匹配的基本功能。apply(fun2)ser = dd.from_pandas(ser, npartitions = 16)在检查cpu内核的状态时，我发现并不是所有的<e

浏览 1提问于2018-07-06得票数 18

1回答

当数据不能放入内存时，将dask数据帧存储到拼图

、

我正在尝试将dask数据帧的内容存储到拼图。使用read_sql_table从数据库中读取内容 import dask.dataframe as dddf.to_parquet(path) 当我这样做的时候，首先将所有数据读取到内存中。但是，由于整个数据集无法装入内存，内核最终会崩溃。如何将数据分块或通过管道传输，以使此操作成功？ (我正在<

浏览 23提问于2020-07-02得票数 0

1回答

选择子集后将其转换为pandas时，Dask* dataframe内存不足*

、、、、

所以我有一个包含160M记录和240列的拼图文件。因此，我使用dask在python中使用EMR CLuster m5.12xlarge加载它。import dask.dataframe as dd 现在我需要其中一列的值计数和归一化值计数：请注意，这里我有总的1 npartitions和

浏览 1提问于2021-09-23得票数 0

2回答

如何处理这么多大型数据集？

、

我想处理每个文件的数据分析，其中包括许多过滤和使用循环。我做了一个虚拟代码来测试这一点，每个文件大约需要4到5分钟。有什么办法让这个过程更快吗？达克能减少这一过程时间吗？

浏览 4提问于2022-02-17得票数 1

1回答

多处理在Mac上工作，但在Windows上不起作用

、、、、

我的dask多处理代码用于应用两个不同的lambda函数，它在Mac上工作得很好，但不能在Windows 7服务器上运行。我可以在Windows 7上使用线程运行代码，但速度非常慢。当我尝试在Windows 7服务器上调度进程时，所有内核的CPU使用率达到100%，服务器冻结。我可以使用scheduler = 'threads'或指定num_workers在Windows中运行下面的代码，但它似乎

浏览 2提问于2019-10-19得票数 2

1回答

在NERSC集群上将数据从jupyter加载到dask

我正试图使用NERSC上的dask客户端将一些相对较大(~15 on )的VTK文件加载到dask dataframe中。然而，我很难有效地完成这一任务，大部分工作都是在NERSC节点上并行进行的。这里的基本结构遵循Rollin关于在NERSC ()上使用dask的笔记本。所以我：在NERSC上启动一个木星笔记本，访问交互队列上的一个节点，定义调度程序文件，启动访问同一个调度程序

浏览 5提问于2020-09-22得票数 0

1回答

从多进程切换到多线程Dask.DataFrame

、、、、

我有一个关于如何使用dask来并行我的代码的问题。我有一个熊猫数据文件和8个核心CPU。所以我想按行应用一些函数。下面是一个例子：from dask.multiprocessing import geto我试过，想把from dask.multiprocessing import get改成from dask.threaded import

浏览 1提问于2018-07-06得票数 4

回答已采纳

1回答

如何提高从s3解析json任务的性能

、

我正在比较一个从s3加载数据并解析json内容的普通脚本。我想也许Dask在这类任务中会更快一些。然而，我使用的Dask脚本似乎比ruby脚本基准测试慢得多。下面是脚本：import dask.bag as dbimport ujsont1 =

浏览 0提问于2017-10-11得票数 1

2回答

XGBoost是如何进行并行计算的？

XGBoost使用加性训练的方法，其中它对前一个模型的残差进行建模。这是顺序的，那么如何进行并行计算呢？

浏览 6提问于2015-12-08得票数 41

回答已采纳

点击加载更多

限制核心数Dask不起作用？