文章/答案/技术大牛

发布

如何减少DASK数组map块的执行时间？

Dask是一个灵活的并行计算库，适用于并行计算和大数据处理。Dask数组是Dask提供的一种数据结构，类似于NumPy数组，但可以处理比内存更大的数据集，并且可以并行化计算。

基础概念

Dask数组的map_blocks方法允许你对数组的每个块应用一个函数。这个方法非常适合于需要对数据进行局部操作的情况。

类型

Dask数组的map_blocks方法可以应用于各种类型的操作，包括但不限于：

数学运算
数据转换
数据过滤

应用场景

大规模数据处理
数据科学和机器学习
科学计算

减少执行时间的方法

优化函数：
- 确保传递给map_blocks的函数是高效的。避免不必要的计算和内存分配。
- 使用NumPy等库中的高效函数。
- 使用NumPy等库中的高效函数。

调整块大小：
- 合适的块大小可以显著影响性能。块太小会导致过多的任务调度开销，块太大则可能无法充分利用并行性。
- 合适的块大小可以显著影响性能。块太小会导致过多的任务调度开销，块太大则可能无法充分利用并行性。
使用并行计算资源：
- 确保Dask可以访问足够的计算资源（如多核CPU或集群）。
- 使用Dask的分布式调度器可以更好地利用集群资源。
- 使用Dask的分布式调度器可以更好地利用集群资源。
避免数据传输开销：
- 尽量减少块之间的数据传输。例如，避免在map_blocks函数中进行全局聚合操作。
使用优化的库：
- 对于某些操作，使用专门优化的库（如CuPy）可以显著提高性能。
- 对于某些操作，使用专门优化的库（如CuPy）可以显著提高性能。

遇到的问题及解决方法

问题：Dask数组map_blocks执行时间过长。原因：可能是由于函数效率低、块大小不合适、计算资源不足或数据传输开销大。 解决方法：

优化传递给map_blocks的函数。
调整块大小以平衡任务调度和并行性。
确保有足够的计算资源。
减少块之间的数据传输。

通过以上方法，可以有效地减少Dask数组map_blocks的执行时间，提高计算效率。

如何减少DASK数组map块的执行时间？

、、

我使用numba njit编写了我的函数，然后我编写了一个在迭代循环中使用它们的总函数。(例如，运行一个迭代5次) 最后，我使用dask array.map_blocks在dask数组的所有块上映射总函数。但是计算(即.compute的计算结果)仍然很耗时。有什么办法可以降低它吗？

浏览 8提问于2020-07-29得票数 0

1回答

如何将大型spark数据帧(5M行)/csv文件拆分成每个数据帧具有相同标题的区块(优化方案)

、、、、

我有一个很大的csv文件(5 5GB)，其中包含大约50M行。我想让更小的块csv(~1M行)从原始的csv文件。我尝试了下面的方法来分块，但花了很多时间来执行分块：data = dask.dataframe.read_csv('test.csv') data.to_csv('/test-*.cs

浏览 1提问于2020-09-02得票数 0

2回答

如何使用Dask并行化集群上的海量图像上的目标检测

、、、

我正在尝试是否可以使用Dask在集群上对海量2D图像(约20-50 GB)中的对象进行按块并行检测和分割。但是，我看到我可以传递给map_blocks的函数的输出类型也

浏览 3提问于2016-11-23得票数 0

1回答

在并行向HDF5文件写入数据时，dask如何管理任务？

、、

我想使用python在一个大型数组上并行计算。输入数组和输出数组都不在内存中。此外，写入输出文件是一个潜在的瓶颈(因为例如，HDF5通常不支持并行写入)。dask.array.map_blocks(func).store(...) 在等待写出生成的块时，dask如何决定将多少新块放入内存(即读入并开始计算)？是否存在相关的配置设置，或者最好避免使用dask并实现其

浏览 12提问于2018-02-12得票数 2

回答已采纳

2回答

在许多情况下，科学家用模版模拟系统的动力学，这是将一个数学运算符转移到一个网格上。通常，这种操作消耗了大量的计算资源。是这个想法的一个很好的解释。在numpy中，编写2D 5点模板的规范方法如下： for j in range(cols): grid[i, j] = ( grid= ( grid[1:-1,1:-1] + grid[0:-2,1:-1] + grid[2:,1:-1] + grid[1:-1,0:-2] + grid[1:

浏览 2提问于2016-10-18得票数 4

回答已采纳

2回答

如何利用GPU将大型dask数组(numpy.ndarray)写入Zarr文件？

、、、、

我正在尝试使用dask将一个大的dask数组(46 GB，124 -- 370MB块)写入zarr文件。如果我的dask数组被命名为dask_data，那么一个简单的dask_data.to_zarr("my_zarr.zarr")就可以工作。但据我所知，这是一个同步的、受CPU限制的进程。我想要做的是使用并行，将大部分工作分

浏览 0提问于2020-02-08得票数 1

1回答

计算具有共同依赖关系的两个值时，Dask高内存使用率

、、、

我在一台机器上使用Dask (LocalCluster有4个进程，16个线程，68.56 to内存)，当我试图一次计算两个共享依赖关系的结果时，遇到了工作内存问题。计算最终将完成，但一旦开始写入磁盘，就会有一个巨大的减速。任何帮助理解这里发生的事情的人都将不胜感激。

浏览 18提问于2021-02-27得票数 2

回答已采纳

2回答

为什么map_blocks要重塑我的数组，我如何控制它？

、、

我想使用dask作为一个非达克感知函数()，这是我可以用dask.array.map_blocks完成的。后者需要一个返回ndarray的函数，但是pyproj.Geod.inv返回一个ndarray的元组，所以我将得到的ndarray连接在一个包装器函数中，然后传递给dask.array.map_blocksy = dask.array.arange(2784, chunks=32) (xc, yc) =

浏览 3提问于2019-12-10得票数 0

回答已采纳

1回答

平面文本文件中的分布式dask矩阵

、、、、

我正在尝试将矩阵的平面文本文件(以制表符分隔)表示到dask数组中，使用distributed将数组的块分布到集群中。(旁白:这与PySpark的方法没有什么不同) 但是，我不清楚如何使用可用的工具将文本文件解析成矩阵结构。在PySpark中，我可以使用一个简单的map来完成这个任务，该map可以将空格上的每一行拆分，并将令牌转换为浮动列表，最后将列表转换为索引<

浏览 1提问于2016-06-03得票数 1

回答已采纳

1回答

使裁剪函数在dask图上工作

、、、

我想使用dask图上的裁剪优化函数。'])cull(d, ['add-7c83a918eb5b1b9847698e0d800caf0c']) 除了“添加”任务之外，它减少了所有的内容。在这个“添加”任务中是一个“块函数”，没有提到应用块函数的地理信息，因此

浏览 0提问于2020-03-10得票数 0

回答已采纳

1回答

更改维度后的map_blocks返回IndexError:元组索引超出范围

、

我正在尝试使用dask数组创建聚合统计信息。map_blocks看起来很理想，但却无法正常工作。import dask.array as da m = median(a)p

浏览 16提问于2019-07-07得票数 1

回答已采纳

1回答

dask=parallelized和dask=allowed在xarray的apply_ufunc中有什么区别？

、、、、

在函数的apply_ufunc中，它说：对于大多数已由dask包装的NumPy函数，通常最好使用预先存在的dask.array函数，方法是使用预先存在的xarray方法，或

浏览 0提问于2018-08-07得票数 5

回答已采纳

1回答

对两个具有不同麻木锁的数组进行操作

我正在尝试为dask数组实现。当A.numblocks != B.numblocks时我应该使用重块吗？

浏览 0提问于2017-12-11得票数 1

回答已采纳

1回答

稀疏CSR阵列的核外处理

、、、、

如何在使用Python保存在磁盘上的稀疏CSR数组的块上并行应用一些函数？按照顺序，这可以通过使用joblib.dump保存CSR数组、用joblib.load(.., mmap_mode="r")打开它并逐一处理行块来实现。用能更有效地做到这一点吗？特别是，假设不需要对稀疏数组进行所有可能的核心操作，而只需要并行加载行块(每个块是一个CSR数组)并将某些函数应

浏览 3提问于2017-07-17得票数 43

1回答

使用xarray将zarr文件转换为netcdf，导致内存分配错误。

、、、、

我的电脑有32‘t的内存，所以写5.5GB的块应该不是问题。然而，在运行此脚本后的几秒钟内，我的内存使用量很快就超过了可用的~20 my，脚本就失败了。资料来源：至zarr文件，包含美国2014年6月28日的雷达降雨数据，总数约为1.8GB。MemoryError: Unable to allocate 5.48 GiB for an array with shape (30, 3500, 7000) and data type float64 包版本

浏览 14提问于2022-08-17得票数 1

回答已采纳

2回答

如何将dask数组逐片保存为.png文件？

我正在运行一个机器学习管道，用于分割非常大的3D图像。我想将结果(dask数组)存储为.png文件，每个文件对应于dask数组的一个片段。你对如何实现这一点有什么建议吗？我一直在尝试通过使用joblib dask并行后端构建一个并行for循环来保存结果，然后逐个切片地循环结果。这可以很好地工作，直到我的管道在没有任何明显原因(没有内存问题，没有太多打开的文件描述符等)的情况下被卡住。已使用clien

浏览 0提问于2019-02-10得票数 1

1回答

重采样和群对大达克阵列与x数组-使用map_blocks？

、、、

我想将它应用到一个大型xarray数据集中，该数据集由一个块的dask数组支持。对于计算，我想使用dask.distributed。分组和重采样会在所有块上触发一些计算，理论上应该与索引交换，但是这种优化还没有在dask中实现。那么，如何最好地实现这一点呢？查看仪表板，我应用到数组的函数被执行了几倍于我拥有的块数。这两个数字不是应该排成一列吗？所以

浏览 1提问于2020-12-16得票数 3

1回答

如何将Dask* Dataframe转换为Dask Array？*

、、、

我有一个dask dataframe对象，但是我希望有一个dask数组。我怎样才能做到这一点？

浏览 0提问于2018-08-31得票数 6

1回答

将dask数组写入netcdf

、、

我试图将一个dask数组写到netcdf文件中，但我得到了一个内存错误，我发现这有点奇怪，因为dask数组的大小并不是太大。它大约是0.04 GB。它的维度如下： Dimensions: (latitude: 2000, longitude: 5143) Coordinates:下面是我如何生成要写入netcdf的dask数组。= OUTFI

浏览 3提问于2018-05-23得票数 1

1回答

如何在分块操作中得到原始的i，j，k位置？

、、、

如果我有一个类似于dask_array_object.blocks.ravel()的操作，并对由此产生的块进行迭代：另外，我注意到有一个选项可以使用函数dask.array.b

浏览 5提问于2022-02-18得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何减少DASK数组map块的执行时间？

基础概念

相关优势

类型

应用场景

减少执行时间的方法

遇到的问题及解决方法

相关·内容

如何减少DASK数组map块的执行时间？

如何将大型spark数据帧(5M行)/csv文件拆分成每个数据帧具有相同标题的区块(优化方案)

如何使用Dask并行化集群上的海量图像上的目标检测

在并行向HDF5文件写入数据时，dask如何管理任务？

如何用Dask编程模具

如何利用GPU将大型dask数组(numpy.ndarray)写入Zarr文件？

计算具有共同依赖关系的两个值时，Dask高内存使用率

为什么map_blocks要重塑我的数组，我如何控制它？

平面文本文件中的分布式dask矩阵

使裁剪函数在dask图上工作

更改维度后的map_blocks返回IndexError:元组索引超出范围

dask=parallelized和dask=allowed在xarray的apply_ufunc中有什么区别？

对两个具有不同麻木锁的数组进行操作

稀疏CSR阵列的核外处理

使用xarray将zarr文件转换为netcdf，导致内存分配错误。

如何将dask数组逐片保存为.png文件？

重采样和群对大达克阵列与x数组-使用map_blocks？

如何将Dask* Dataframe转换为Dask Array？*

将dask数组写入netcdf

如何在分块操作中得到原始的i，j，k位置？

扫码

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐