如何在dask数组上执行“窗口”操作

、、、、

我有一个具有3个维度(时间，x和y)的Xarray -它们基本上是一堆图像。我想以一种“窗口”的方式操作成对的图像。简单地说，就是取一对图像，比如前两个“时间”图像，然后在它们的5x5窗口上调用一个函数。window2 = np.copy(imgb[i:i+N,j:j+N]).flatten() r = list(tqdm.tqdm(p.ima

浏览 18提问于2021-01-08得票数 2

1回答

延迟评估Dask数组以避免临时性

我来自C++，习惯于使用表达式模板的库，其中的矩阵操作如下：不要创建临时文件和元素操作是在循环中完成的，而不会为右侧的操作创建临时矩阵对于Dask数组，这是可能的吗？Dask的“惰性评估”是否也是这样做的，或者这个术语只是指操作图的按需计算。谢谢。

浏览 2提问于2018-11-10得票数 1

1回答

dask=parallelized和dask=allowed在xarray的apply_ufunc中有什么区别？

、、、、

if a dask array is encountered.‘allowed’: pass dask arrays directly on to func.在上的文档页面中，有一个注释：然

浏览 0提问于2018-08-07得票数 5

回答已采纳

1回答

用于numpy数组的free()的Python等价物？

、、、

我有许多需要存储为dask数组的大型numpy数组。在尝试从.npy加载每个数组，然后将其转换为dask.array时，我注意到内存使用率几乎与常规numpy数组一样多，即使在将arr加载到dask.array之后执行del arr之后也是如此。: 1我唯一的猜测是，

浏览 2提问于2021-07-23得票数 0

1回答

在dask数组的片上运行函数

、、

我一直在尝试弄清楚如何在dask数组的切片上执行函数。例如，如果我创建以下dask数组：import dask.array as da并定义函数：def test(x,y,z=4):正在执行中

浏览 0提问于2018-09-06得票数 0

回答已采纳

2回答

基于dask的三维体处理

、、、、

然后将输入的3D图像划分为子卷(有一些重叠的边界-对于3x3x3模板Sobel，它将要求+2样本重叠/填充) 为了用图像来解释它--请考虑这是一个3D域分解(这是来自DWT的--但对于说明很好)：并假设有一个函数计算整个卷的

浏览 6提问于2017-03-21得票数 1

回答已采纳

2回答

达克相当于潘达的替代品？

、

我经常在熊猫上使用的东西是.replace操作。我很难看到一个人是如何在dask数据文件上执行同样的操作的？

浏览 1提问于2016-11-30得票数 9

回答已采纳

1回答

dask.array和gil锁中的循环

、

每个块上的函数使用python循环，而不是numpy函数。由于外部库，我必须使用python循环。测试代码：import dask.array as dafrom itertools import如何为dask数组上的函数设置上下文？我想使用默认的dask调度程序来执行其他dask数组上的

浏览 4提问于2017-12-23得票数 0

回答已采纳

1回答

我使用xarray open_dataset来打开大约4000个NetCDF文件。我喜欢保存数据集而不进行任何处理。虽然读取这4000个文件大约需要一分钟(不要偷懒阅读)，但编写它可能需要几个小时。包含这些文件的目录的总大小约为750 Mb。在这里，我比较了使用xr.open_dataset和xr.open_mfdataset读写单个文件的情况。ds = xr.open_dataset('path to file')Wall time: 6.95 ms 编写

浏览 25提问于2022-08-05得票数 1

回答已采纳

1回答

dask计算所用CPU的限制数

、、、

下面的代码使用appx 1秒在8 CPU系统上执行.如何手动配置dask.compute使用的CPU数量，如4个CPU，以便下面的代码将使用appx 2秒来执行，即使在8 CPU系统上？import dask sleep(1)print(das

浏览 1提问于2021-09-30得票数 3

回答已采纳

2回答

从dask阵列产生矢量输出

、、、

我有一个大的dask数组(labeled_arr)，它实际上是一个标记的光栅图像(dtype是int64)。这在单个数组上是一个简单的任务，但我很难弄清楚如何告诉dask，我希望它对每个块执行这个操作，并返回一些不是数组的内容。执行以下操作的代码行： test_polygons = da.blockwise(get_polys, '', labeled_arr, 'ij

浏览 4提问于2021-02-16得票数 3

回答已采纳

1回答

如何在窗口小部件之间连续点击一次，并在窗口小部件触摸时执行一些操作，就像钢琴跨钢琴键一次触摸一样？

、、、

我如何在窗口小部件上连续点击一次，并在窗口小部件触摸时执行一些操作，如钢琴，跨钢琴键的一次触摸使其音调？

浏览 1提问于2021-04-06得票数 1

1回答

获取SON、DJF、MAM多年数据中95%的变量

、、、

1972-01-01 ... 2017-12-31T23:00:00 FFDI (time, latitude, longitude) float32 dask.array

浏览 24提问于2019-03-01得票数 2

回答已采纳

2回答

移动dataframe中的所有行

、、、

在Pandas中，有一个方法DataFrame.shift(n)将数组的内容相对于索引移动n行，类似于np.roll(a，n)。我似乎找不到办法让达斯克有类似的行为。我想要做的是：import pandas as pd with pd.HDFStore(path) as(我知道该方法还会捕获从有符号值到零的更改)，然后使用布尔序列索引不同的Dask数据帧进行绘图。

浏览 6提问于2015-12-11得票数 6

回答已采纳

1回答

在应用函数之前，强制Dask延迟对象计算所有参数

、

我真的很喜欢使用Dask。def inc(x, y):类似这样的东西 if hasattr(y, compute): return x + y dinc = dask.delayed(inc, pure=True)

浏览 0提问于2017-01-30得票数 1

1回答

Dask连接高内存使用率

、

我正在尝试使用dask来计算存储在数据集中的数据摘要，该数据集分为大约1000个拼图文件。每个文件大小在1Mb - 10Mb之间。当我将一个序列转换成一个数组，并在该数组上计算max时，它工作得很好。然而，当我尝试对两个数组执行concatenate操作时，我很快就耗尽了内存： import dask.dataframe as dd data = dd.read_parquet/data&#x

浏览 10提问于2021-04-11得票数 1

1回答

对于.head(20)这样的操作，如何让Dask变得像PySpark一样懒惰？

、

在PySpark中，每当我在一个非常大的数据帧df上排列一组复杂的操作，然后键入：Spark将只执行必要的操作(在部分数据集上)，以便快速返回20条记录以供显示。除非我用.collect()强制它这样做，否则它不会对dataframe df的所有行执行操作。另一方面，在Dask中，当我做同样的事情时：Dask实际上将对整个数据帧执行操作(并且会持续很长一段时间)，然

浏览 38提问于2018-06-03得票数 1

1回答

将使用大型np.ndarray的短任务并行化

、、

执行f所需的时间非常少(大约5ms)。for x in M:与使用多处理并行化相比，需要花费大约5倍的时间。import multiprocessing pool.map(f, M) 我曾经尝试过与dask并行化，但是它甚至在顺序执行中失败了我尝试过很多事情，如使用数据的分区(如所说的)或使用dask.bag。我在本地机器上</em

浏览 7提问于2022-03-07得票数 0

1回答

使用脚本中的Dask

、、

可以从python脚本运行dask吗？from dask.distributed import Client如所有教程中所述。但是，如果我将这些代码行写在script.py文件中并以python script.py方式执行它，它会立即崩溃。我发现了另一个选择，那就是使用MPI：from dask_mpi import initialize from dask.dist

浏览 0提问于2019-08-20得票数 2

1回答

如何为所有工作进程和分区预缓存dask.dataframe以减少通信需求

、、、、

有时，使用dask.dataframe.map_partitions进行合并之类的操作很有吸引力。在某些情况下，当使用map_partitions在left_df和right_df之间进行合并时，我希望在执行合并之前先预缓存right_df，以减少网络开销/本地混洗。在使用小得多的right_df (本质上是一个查找表)的大型left_df上执行左连接时，这一点尤为突出。下面是使用cuDF和Dask进行这种不平衡合并的较小示例(但从概念上讲，

浏览 0提问于2019-07-30得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

延迟评估Dask数组以避免临时性

dask=parallelized和dask=allowed在xarray的apply_ufunc中有什么区别？

用于numpy数组的free()的Python等价物？

在dask数组的片上运行函数

基于dask的三维体处理

达克相当于潘达的替代品？

dask.array和gil锁中的循环

写入xarray数据集要比读取它慢得多？

dask计算所用CPU的限制数

从dask阵列产生矢量输出

如何在窗口小部件之间连续点击一次，并在窗口小部件触摸时执行一些操作，就像钢琴跨钢琴键一次触摸一样？

获取SON、DJF、MAM多年数据中95%的变量

移动dataframe中的所有行

在应用函数之前，强制Dask延迟对象计算所有参数

Dask连接高内存使用率

对于.head(20)这样的操作，如何让Dask变得像PySpark一样懒惰？

将使用大型np.ndarray的短任务并行化

使用脚本中的Dask

如何为所有工作进程和分区预缓存dask.dataframe以减少通信需求

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐