使用xarray dask apply_ufunc时避免内存溢出

文章/答案/技术大牛

发布

1回答

、、、、

我需要沿此形状的xarray dask数组的时间维度应用一个函数： <xarray.DataArray 'tasmax' (time: 14395, lat: 1801, lon: 3600)> dask.array179.8 -179.7 ... 179.7 179.8 179.9 该进程的输出将是一个大小为(time=365, lat=1801, lon=3600)的小得多的数组，但是您可以在上面看到的输入数组内存大小约为我试图通过使用带有da

浏览 38提问于2020-10-31得票数 4

1回答

关于xarray apply_ufunc

、、

我试图从一个3小时的全球数据集中计算每日Tmax。我可以使用groupby来完成这个任务，但是我想知道如何通过使用dask并行操作(例如使用apply_ufunc)来减少计算时间。如果有关于ufunc的好文档，请告诉我(关于xarray的文档对我来说不够详细，给我留下了一点困惑，因为我以前没有任何使用dask的经验)。谢谢！！time.dayofyear').max(dim='time') DAY

浏览 3提问于2018-05-25得票数 1

1回答

dask=parallelized和dask=allowed在xarray的apply_ufunc中有什么区别？

、、、、

在函数的apply_ufunc中，它说：对于大多数已由dask包装的NumPy函数，通常最好使用预先存在的dask.array函数，方法是使用预先存在的xarray方法，或者使用</

浏览 0提问于2018-08-07得票数 5

回答已采纳

1回答

在大型xarray.DataArray中随机掩码/设置nan x%的数据点

、、、

我有一个巨大的(20亿个数据点) xarray.DataArray。我想随机删除(要么掩码，要么用np.nan替换)给定百分比的数据，其中每个数据点被选择删除/掩蔽的概率在所有坐标上都是相同的。我可以将数组转换为numpy.array，但为了速度起见，我最好将它保存在dask块中。我的数据如下：<xarray.DataArray 'stack-820860ba63bd07adc355885d96354267' (variable: 8, time: 228, latitude

浏览 0提问于2019-05-22得票数 2

回答已采纳

3回答

XArray沿时间维应用函数

、

我将图像堆栈存储在具有维度时间、x、y的XArray DataArray中，我希望在其上沿每个像素的时间轴应用自定义函数，以便输出为维x，y的单个图像。我尝试过: apply_ufunc，但是函数失败了，说明我需要首先将数据加载到RAM中(即不能使用Dask )。确切的错误信息是： ValueError: apply_ufunc在一个参数上遇到了一个dask数组，但是尚未启用对dask数组的处理。要么设置dask参数，要么先用.load()或.com

浏览 0提问于2019-08-19得票数 4

回答已采纳

2回答

使用xarray，如何将多维数据集上的一维操作并行化？

、、

通过使用这些串行代码，我成功地获得了我想要的结果，但速度相当慢：res_shape = tuple我知道apply_ufunc可能是一个选项(并且可以使用dask并行化)，但是我没有成功地得到正确的参数。编辑2:将前面的编辑移到答复

浏览 1提问于2018-08-30得票数 6

1回答

使用xarray* + dask -使用groupby还是apply_ufunc的内存错误？*

、、、、

我使用xarray作为我分析流体湍流数据的工作流程的基础，但是我很难正确地利用dask来限制我的笔记本电脑上的内存使用。我想使用dask一次只在一个块上执行这个操作，因为我在任何时候的笔记本上只有几个GB内存可用。据我所见，我可以使用(1) xarray.apply_ufunc，也可以使用(2) groupby.reduce。1.使用apply_ufunc 我可

浏览 0提问于2018-08-02得票数 8

1回答

沿维度操作，而不写回Xarray上dask数组中的数据

、、、

这样的函数在时间维度上缩放每个“图像”for i in range(data.shape[0]):但是由于数据存储在dask我遇到了这个错误： TypeError: this variable's data is stored in a dask array, which does not support item assignment如何在xarray/dask中做到这一点？

浏览 22提问于2021-05-29得票数 1

1回答

我可以使用`xarray.apply_ufunc`并行化`numpy.bincount`吗？

、、

我想使用xarray的apply_ufunc API并行化numpy.bincount函数，下面的代码是我尝试过的：import xarray as xr 979983 return variables_ufunc(*args) ~/anaconda/envs/uptod

浏览 0提问于2019-04-10得票数 2

2回答

如何将apply_ufunc与numpy.digitize结合用于xarray.DataArray时间维数的每一幅图像？

、、

我有一个形状为x，y和时间的xarray.DataArray。我试图弄清楚应该为apply_ufunc函数的'input_core_dims‘和'output_core_dims’参数提供哪些值，以便将numpy.digitize应用于时间序列中的每个图像。同样奇怪的是，apply_ufunc的结果在显示为xarray时会删除input_core_dim。但是在内部，当您将其转换为numpy数组时，维度仍然存在。[85] <xarray.Data

浏览 1提问于2019-08-08得票数 8

回答已采纳

2回答

在xarray中将apply_ufunc后的维度移动到原来的顺序？

、、、

我的数据集有按(time, y, x)顺序排列的3个维度，我使用apply_ufunc沿time维度应用计算。这将维度的顺序重新排列为(y, x, time)。我需要重组xarray，使其按照(time, y, x)顺序作为原始数据集。我该怎么做呢？dcube, output_core_dims=[["time"]], dask是否有阻止apply_ufunc</em

浏览 2提问于2021-05-28得票数 2

回答已采纳

1回答

使用dask将ufunc应用于xarray单数据集变量作为延迟操作

、、

我想将自定义函数应用于xarray.Dataset中的一个变量，只修改指定的变量。同时，我正在尝试制作dask计算图的这一部分，以便在使用to_netcdf读取到磁盘之前将其延迟。目前，我可以使用ufunc应用xr.apply_ufunc()，但只能应用于数据集中的所有变量。我知道我可能可以直接使用变量的名称(如Dataset.var )访问它，并将其传递给apply_ufunc()，但我不太明白如何在输出之前将该函数的输出(延迟的未来)与原始数据集重新组合。import xar

浏览 0提问于2019-07-13得票数 0

1回答

如何使用xarray* open_mfdataset和分位函数降低内存使用量*

、

import xarray as xr chunks={'latitude': 10to do quantile, or it throws a ValueError: # ValueError: dimension time on 0th function argument to apply_ufunc我的问题来自内存的使用。我认为，通过执行open_mf

浏览 10提问于2022-08-30得票数 0

2回答

无法在xarray* numpy.isin DataArray中使用DataArray函数*

、、

我有一个名为DataArray的xarray da_temp。它有维数time，latitude和longitude。我试图使用np.isin检查time坐标中的月份是否在1、2、3、4、5、6列表中，但收到了错误。='allowed') 563

浏览 2提问于2019-07-09得票数 0

2回答

在一个函数中支持xarray、dask和numpy数组的最干净的方法

、、、

一个使用xarray DataArrays的用户指出，这个函数现在返回dask数组，因为DataArray有一个“块”属性。我想知道dask/xarray专家是否能告诉我支持所有3(4)的最干净的方法是什么？对象类型可能不必重复每种类型的代码(numpy数组、dask数组、xarray与numpy、xarray与dask)。请记住，输入是2D数组，因此不支持所涉及的掩蔽操作。修复这个问题的相关请求是。以下是我们在努力

浏览 0提问于2018-08-09得票数 3

回答已采纳

1回答

Xarray / Dask -计算每个坐标的最高温度

、、、、

我可以使用Xarray很好地加载文件，尽管它需要4到5分钟：xarray_dataset = xr.open_dataset('cds/2020_hourly_t2m.grib这可能是因为它需要比可用内存更多的内存。因此，我可能需要使用Dask以块的形式加载数据，并对这些块进行计算并聚合结果。我刚接触过Dask，发现很难用Dask.Array API块读

浏览 2提问于2022-01-02得票数 2

回答已采纳

2回答

将xarray与自定义函数一起使用并重新采样

、

我正在尝试获取一个数组，并使用自定义函数对其进行重新采样。我有一个数据集是：Dimensions: (lat: 100, lon: 130, time: 7305) * lon (lon然后我应用一个重采样，即： Dimensions: (time: 240)dask.arra

浏览 13提问于2020-02-22得票数 3

回答已采纳

1回答

xarray:处理来自ufunc的不同维度的多个返回值

、、、

我使用xarray.apply_ufunc与我的3D dask数组并行地应用这个函数。所需的输出是一个具有修改后的3D数组的xarray数据集，再加上一个新变量，该变量包含每个timeseries的系数(因此本质上是一个2D数组)。ds, output_core_dims=[["time"],[]], daskair (lat, lon)

浏览 3提问于2020-11-11得票数 0

回答已采纳

2回答

使用维度切片读取单个NetCDF文件的子集

、、

我尝试使用python xarray模块中的dask.array特性，并在打开此数据时指定了块大小。它工作得很好；但是，当我尝试使用.load()将变量加载到内存中时，它非常慢。我想知道是否有任何选项(在xarray或其他python模块中)通过提供维度索引(lat、lon)来读入NetCDF文件的子集？这样，我就可以直接将函数应用于子集文件，而无需使用dask.array。

浏览 0提问于2018-04-25得票数 1

2回答

将scipy curve_fit与dask/xarray一起使用

、、、、

我正在尝试使用dask.distributed作为计算后端，在一个大的纬度/经度/时间xarray上使用scipy.optimize.curve_fit。这个想法是使用时间序列为每个(纬度，经度)运行单独的数据拟合。所有这些在xarray/dask之外都可以很好地运行。我使用作为熊猫数据帧传递的单个位置的时间序列对其进行了测试。但是，如果我尝试直接在xarray上对相同的(纬度、经度)运行相同的进程，c

浏览 15提问于2020-07-20得票数 0

点击加载更多