使用Xarray和Dask在数据数组上运行的循环中获得非常慢的迭代 - 腾讯云开发者社区

python、large-data、netcdf

在python中，我如何将数组的子集写入磁盘，而不将整个数组保存在内存中？ xarray输入/输出文档指出，除非通过dask.array流式传输，否则xarray不支持增量写入，仅支持增量读取。(此外，修改数据集仅影响内存中的副本，而不影响连接的文件。)dask文档建议在每次操作后保存整个数组？

浏览 11提问于2019-04-08得票数 1

1回答

如何将x数组数据集转换为dask dataframe中的熊猫数据

python、pandas、dask、python-xarray

我有一个计算，希望熊猫的数据作为输入。我想在存储在netCDF文件中的数据上运行这个计算，该文件扩展到51 at -目前我一直在用xarray.open_dataset打开文件并使用块(我的理解是这个打开的文件实际上是一个dask数组，因此一次只将数据块加载到内存中)。然而，我似乎无法利用这种懒散的加载，因为为了运行我的计算，我必须将xarray数据转换为熊猫数据--我的理解是，此时所有的数据都被加载到内存中(这很糟糕)。因此，我想长话短说，我的问题是:如果没有任何中间步骤将整个数据加载到内存中，我如何才能从xarray数据集获得熊猫的数据？我看过dask与pandas.read_csv一起

浏览 0提问于2016-11-07得票数 7

回答已采纳

1回答

使用xarray + dask -使用groupby还是apply_ufunc的内存错误？

python、out-of-memory、pandas-groupby、dask、python-xarray

我使用xarray作为我分析流体湍流数据的工作流程的基础，但是我很难正确地利用dask来限制我的笔记本电脑上的内存使用。我有一个带有维度n的数据数组('t', 'x', 'z')，我沿着z维度将其分割成5块： <xarray.DataArray 'n' (t: 801, x: 960, z: 512)> dask.array<shape=(801, 960, 512), dtype=float32, chunksize=(801, 960, 5)> Coordinates: * t

浏览 0提问于2018-08-02得票数 8

1回答

是否有一种有效的方法，在每个样本之间用NaNs对一个dask或xarray进行抽样？

python、sparse-matrix、dask、python-xarray

长话短说：我初始化了两个延迟的DataArray数组，并希望将它封装到xarray中。dask数组有不同的长度，因此我想对具有NaNs的较小的数组进行抽样，目标是两者共享相同的xarray坐标。我怎样才能做到计算上的便宜(不循环每一个样本)和保持懒惰？长话短说：在物理上，两个dask阵列的值具有相同的时间维度(0到5秒)，但采样频率却完全不同(2 2MHz和3 3kHz)。因此，长度(=形状随时间维数变化)是非常不同的。现在，我希望通过让两个dask数组真正共享xarray的时间坐标来启用xarray的功能。我能想到这一点的唯一方法是重采样/向上采样每个样本之间带有NaNs的较小的

浏览 0提问于2019-09-13得票数 1

1回答

堆栈Xarray生成的Dask数组的有效方法

python、dask、netcdf、python-xarray

因此，我试图读取大量相对较大的包含水文数据的netCDF文件。NetCDF文件都如下所示： <xarray.Dataset> Dimensions: (feature_id: 2729077, reference_time: 1, time: 1) Coordinates: * time (time) datetime64[ns] 1993-01-11T21:00:00 * reference_time (reference_time) datetime64[ns] 1993-01-01 * feature_id (fe

浏览 0提问于2018-09-12得票数 4

回答已采纳

2回答

在一个函数中支持xarray、dask和numpy数组的最干净的方法

python、numpy、dask、python-xarray

我有一个函数，它接受多个2D数组，并创建两个形状相同的新数组。它最初是为了只支持numpy数组而编写的，但是如果看到“块”属性，则会被“黑客攻击”以支持dask数组。一个使用xarray DataArrays的用户指出，这个函数现在返回dask数组，因为DataArray有一个“块”属性。我想知道dask/xarray专家是否能告诉我支持所有3(4)的最干净的方法是什么？对象类型可能不必重复每种类型的代码(numpy数组、dask数组、xarray与numpy、xarray与dask)。请记住，输入是2D数组，因此不支持所涉及的掩蔽操作。修复这个问题的相关请求是。以下是我们在努力避免将xar

浏览 0提问于2018-08-09得票数 3

回答已采纳

1回答

从行向量的迭代器构造一个由dask支持的大型xarray

python、dask、python-xarray、xarray

如何从行向量的迭代器构建xarray。结果数组可能比内存大，并且将由dask数组支持。行向量还带有唯一的标签，这些标签需要成为结果xarray的行索引。在文档中，我只看到一个构造函数，它一开始就接受内存中的numpy数组。一个示例用例是将存储为xarray，并将单词作为行标签。这些模型通常提供一个迭代器，在词汇表中的所有单词上生成(字符串，向量)对。大多数模型的维度都在100多维，词汇表中通常有大约10^6个单词。我希望将向量堆叠到一个矩阵中，以便执行线性代数运算，并能够通过单词字符串查找行。我希望能够写出类似这样的代码： import numpy as np import xarray

浏览 2提问于2018-05-15得票数 2

1回答

如何在导入Geotiff文件时为Dask.array中的波段分配名称？

dask、python-xarray、geotiff

我试图使用Dask和xarray导入一个带有多个波段的Geotiff，并使用以下代码： import xarray as xr chunks = {'x': 15886, 'y': 2400, 'band': 1} df= xr.open_rasterio('multiband.tif',chunks = chunks) df 哪个df看起来像： <xarray.DataArray (band: 6, y: 2400, x: 15886)> dask.array<open_rasterio-b9dd4de67eb

浏览 3提问于2020-01-10得票数 1

1回答

如何有效地计算Dask/xarray中轴上的值的第一个实例？

python、dask、python-xarray

我在每个网格箱中输入了一些总水量的大气模式数据。我正在尝试从这些输入数据计算云顶高度；因此，对于每一列，我需要找到输入数据大于阈值的最高实例。我的输入数据是nz x ny x nx的100 x 900 x 900。我的数据通过dask和100 x 50 x 50块加载到xarray中。传统上，我会这样做： cloud_top_height = numpy.zeros((900,900) for x in range(0, nx): for y in range(0, ny): cloud_top_found = false for z in range(nz, 0, -

浏览 32提问于2020-10-01得票数 0

1回答

将hdf5文件加载到python中

python、hdf5、dask、h5py、python-xarray

python模块xarray很大程度上支持加载/映射netCDF文件，甚至懒洋洋地使用dask。我必须使用的数据源是数千个hdf5文件，有很多组、数据集和属性--所有这些都是用h5py创建的。问题是：如何加载(或者更好地使用dask，懒散地映射) hdf5数据(数据集、元数据、.)变成xarray数据集结构？有没有人在这方面有过经验，或者遇到过类似的问题？谢谢!

浏览 0提问于2019-02-11得票数 10

回答已采纳

1回答

设置临时目录: open_mfdataset xarray、dask(?)、python

python、dask、python-xarray、tmp

我正在使用xarray.open_mfdataset打开多个文件，并将它们再次存储为一个数据集。当我这样做的时候，我的临时目录内存耗尽了。如何更改临时目录的路径？我的代码看起来像是： import xarray as xr with xr.open_mfdataset( my_list_of_filepaths ) as in_data: out_data = some_data_manipulation( in_data ) out_data.to_netcdf( out_filepath ) 我试过： import dask

浏览 3提问于2022-01-31得票数 0

1回答

从未来创建惰性xarray对象

python、python-xarray、dask-distributed、dask-delayed

我有一个dask.delayed函数，它将xarray.Dataarray作为参数并返回一个参数。我正在创建一些延迟任务，并使用client.compute将它们传递给dask.distributed。每个要计算的调用都返回一个distributed.client.Future，表示将要返回的数据数组。我的问题是：是否有一种方法可以从将来重新构建一个“懒惰”数据数组，而无需从工作人员加载实际数据？我的意图是根据第一次计算的输出建立第二个任务图。我见过client.gather，但这似乎将所有数据带回客户端，这不是我想要的。下面是一个小例子： import dask from dist

浏览 5提问于2021-06-21得票数 3

回答已采纳

1回答

如何使用Python和xarray从变量满足netCDF数据集标准的位置提取坐标？

python、pandas、netcdf、python-xarray

我有一个xarray DataArray对象da_criteria_daily，其中是从一个netCDF文件生成的。 <xarray.DataArray (time: 365, latitude: 106, longitude: 193)> dask.array<shape=(365, 106, 193), dtype=bool, chunksize=(1, 106, 193)> Coordinates: * time (time) datetime64[ns] 2017-01-01 2017-01-02 ... 2017-12-31 * lati

浏览 31提问于2019-01-30得票数 1

2回答

计算多个xarray变量的均值

python、mean、python-xarray

例如，我有一个xarray数据数组： <xarray.Dataset> Dimensions: (lat: 180, lon: 360, time: 360) Coordinates: * time (time) datetime64[ns] 1990-01-01 1990-02-01 ... 2020-01-01 * lat (lat) float64 -89.5 -88.5 -87.5 -86.5 ... 87.5 88.5 89.5 * lon (lon) float64 0 1 2 3 ... 357 358

浏览 3提问于2020-03-31得票数 2

回答已采纳

1回答

初始化大于内存的Xarray数据集

python、dask、python-xarray、zarr

我想初始化一个非常大的XArray数据集(如果可能的话在磁盘上)，以便以后处理--数据集的各个部分(空间子集)将由不同的脚本填充。这是行不通的，因为数据集显然不适合内存。 import numpy as np import xarray as xr xr_lons = xr.DataArray(np.arange(-180, 180, 0.001), dims=['x'], name='lons') xr_lats = xr.DataArray(np.arange(90, -90, -0.001), dims=['y'], name='

浏览 6提问于2022-09-19得票数 0

回答已采纳

1回答

有没有可能序列化xarray DataArray，它包含指向文件的延迟dask数组数据？

python、serialization、deserialization、dask、python-xarray

我已经从多个源hdf5文件构建了一个巨大的dask数组。假设数据只来自一个hdf5文件： import dask.array as da import h5py import xarray as xr h5_data = h5py.File(path_to_file, "r") dask_arr = da.from_array(h5_data, chunks=chunksize) 然后，我将dask数组中的(惰性)切片排列到一个xarray数据集中 xr_data = xr.DataArray(dask_arr[0:1000]) # Note: In reality, xr

浏览 1提问于2019-12-18得票数 2

1回答

如何有效地将npy转换为xarray / zarr

python、dask、python-xarray、zarr

我有一个37 GB的.npy文件，我想要转换到扎尔商店，以便我可以包括坐标标签。在理论上，我有这样做的代码，但我一直没有内存。我想在中间使用Dask来方便，但是我仍然内存不足。数据是人的股骨软骨的“厚度图”。每个映射都是一个310x310浮点数数组，其中有47789个。因此，数据形状为(47789,310,310)。步骤1:将npy文件加载为memmapped数组。 fem_dask = dask.array.from_array(np.load('/Volumes/T7/cartilagenpy20220602/femoral.npy', mmap_mode='r

浏览 10提问于2022-06-17得票数 4

回答已采纳

2回答

使用维度切片读取单个NetCDF文件的子集

python、python-xarray、netcdf4

我有一个非常大的NetCDF文件。我尝试使用python xarray模块中的dask.array特性，并在打开此数据时指定了块大小。它工作得很好；但是，当我尝试使用.load()将变量加载到内存中时，它非常慢。我想知道是否有任何选项(在xarray或其他python模块中)通过提供维度索引(lat、lon)来读入NetCDF文件的子集？这样，我就可以直接将函数应用于子集文件，而无需使用dask.array。

浏览 0提问于2018-04-25得票数 1

1回答

将netCDF数据聚合为平均值、最小值、最大值

python、dask、netcdf、python-xarray

我有几个netCDF文件可以下载here，由Coperinucs创建。有四个文件，每个文件大约1 1GB。我是这样读文件的 import xarray as xr dset = xr.open_dataset("~/.../ERA5land1.nc") 这给了我 <xarray.Dataset> Dimensions: (latitude: 61, longitude: 101, time: 87647) Coordinates: * latitude (latitude) float32 31.0 30.9 30.8 30.7 ... 25.3

浏览 22提问于2020-03-16得票数 1

1回答

Xarray / Dask -计算每个坐标的最高温度

python、dask、python-xarray、grib、era5

我有一个17 GRIB的GRIB文件，其中包含2020年每小时的温度()数据。数据集的维度是longitude、latitude和time。我的目标是计算全年数据中每个坐标的最高温度(lon，lat)。我可以使用Xarray很好地加载文件，尽管它需要4到5分钟： import xarray as xr xarray_dataset = xr.open_dataset('cds/2020_hourly_t2m.grib', engine='cfgrib') 但是，调用会导致Google会话崩溃。这可能是因为它需要比可用内存更多的内存。因此，我可能需要使用Das

浏览 2提问于2022-01-02得票数 2

回答已采纳

1回答

重采样和群对大达克阵列与x数组-使用map_blocks？

python、dask、python-xarray、dask-distributed

我有一个定制的工作流，它需要使用resample来获得更高的时间频率，应用ufunc和groupby + mean来计算最终结果。我想将它应用到一个大型xarray数据集中，该数据集由一个块的dask数组支持。对于计算，我想使用dask.distributed。但是，当我将此应用于完整的数据集时，任务数量急剧增加，使客户端不堪重负，如果提交的话，调度程序和工作人员也很可能会受到影响。解释道：在管道的早期执行空间和时间索引(例如.sel()或.isel())，特别是在调用resample()或groupby()之前。分组和重采样会在所有块上触发一些计算，理论上应该与索引交换，但是这种优

浏览 1提问于2020-12-16得票数 3

1回答

将使用大型np.ndarray的短任务并行化

python、multiprocessing、dask

我有一个函数f，它使用一个变量x作为输入，它是一个大型np.ndarray (伦特20000)。执行f所需的时间非常少(大约5ms)。多行矩阵M上的一个M循环 for x in M: f(x) 与使用多处理并行化相比，需要花费大约5倍的时间。 import multiprocessing with multiprocessing.Pool() as pool: pool.map(f, M) 我曾经尝试过与dask并行化，但是它甚至在顺序执行中失败了。相关的职位是，但接受的答案不适用于我。我尝试过很多事情，如使用数据的分区(如所说的)或使用dask.bag。我在本地机器上运

浏览 7提问于2022-03-07得票数 0

1回答

如何将xarray u_function应用于NetCDF并将2D数组(多个新变量)返回给DataSet

python、netcdf、python-xarray

我试图使用xarray apply_ufunc对数据集中的所有坐标(即像素)应用给定的函数f。函数f返回一个2D数组(NxN矩阵)作为结果。因此，经过分析后，生成的数据集将有几个新变量:总计为M新变量。函数f确实工作得很好。因此，这个错误似乎并不是由它引起的。一个可能的问题可能是二维数组从f返回的结构。据我所知，xarray.apply_ufunc要求以元组的形式构造结果数组。所以，我甚至尝试把2D数组转换成数组的元组，但是到目前为止，没有什么效果。这种情况也可以在其他作品中进行检查。在本链接中，作者必须在原始数据集上运行两次相同的线性回归拟合函数，才能从回归中检索所有参数(beta_

浏览 8提问于2019-11-05得票数 5

回答已采纳

2回答

dask性能沿轴应用

dask、python-xarray

我正在尝试使用dask在一个大型的高分辨率海洋模型数据集上计算随时间的线性趋势。我遵循了这个示例()，发现apply_along_axis的语法更简单。我目前正在使用dask.array.apply_along_axis在一维数组上包装一个Dataarray函数，然后将生成的dask数组打包到一个xarray中。使用top -u <username>建议计算不是并行执行的(大约100%的cpu使用率)。我应该期待map_blocks有更好的性能吗？或者有什么关于如何提高apply_along_axis性能的建议？任何提示都是非常感谢的。 import numpy as np

浏览 0提问于2017-11-16得票数 2

3回答

任务:将dask.DataFrame转换为xarray.Dataset

pandas、dask、python-xarray、dask-dataframe

这在熊猫身上是可能的。我想和dask一起做。编辑:在任务上引发仅供参考，您可以从使用的Pandas解决方案 import pandas as pd import numpy as np df = pd.DataFrame([('falcon', 'bird', 389.0, 2), ('parrot', 'bird', 24.0, 2), ('lion', 'mammal', 80.5, 4),

浏览 0提问于2020-03-28得票数 4

1回答

如何使用python中的xarray和dask将多个2D数组转换为一维列？

python、dask、python-xarray、dask-ml

我在xarray中将7个二维云优化地理数据堆成一个数据数组。它们非常大，所以我使用扩展和dask来流来自s3的数据，而不使用任何内存。我已经连接他们沿他们的“乐队”维度，以堆叠他们。 catalog = intake.open_catalog("s3://example-data/datasets.yml") datasets = ['dem', 'dem_slope', 'dem_slope_aspect', 'distance_railways&#

浏览 9提问于2022-07-26得票数 0

回答已采纳

1回答

沿维度操作，而不写回Xarray上dask数组中的数据

python-3.x、data-science、dask、python-xarray

我有一个有3个维度('time'，'x‘和'y')的数据集。我想沿时间维度应用此函数foo： def foo(arr): lo, hi = np.percentile(arr, (1,99)) arr = np.clip(arr, lo, hi) arr = (arr - lo) / (hi - lo) return arr 基本上，我想用一个像foo这样的函数在时间维度上缩放每个“图像” 在numpy中，我可以这样做： for i in range(data.shape[0]): data[i] = foo(dat

浏览 22提问于2021-05-29得票数 1

1回答

用Xarray和UKCP18 -多变量索引计算BIOCLIM变量

python、python-xarray

我目前正在生成几个生物气候变量(气候衍生物)，以应用于使用UKCP18数据的一些生物多样性工作。我正在生成生物气候变量"Bio 19"：使用tas和pr的最冷季度()的降水。这项任务包括找出平均气温的3个月滚动总和，确定其中的最低温度(构成最冷的四分之一)，然后提取3个月滚动期的总降水量，以获得"Bio 19“。 My问题：我可以在没有问题的情况下找到最冷的季度(使用tas)，但是pr数据被Xarray和时间索引一起删除。这意味着我无法知道从哪个时段提取降雨，因为数据不是以这种方式跨变量链接的(使用我的方法)。示例代码： # previous code here .

浏览 4提问于2022-06-14得票数 1

1回答

dask:大型块xarray数据集没有正确地共享amogst工作人员

python、python-3.x、dask、python-xarray、dask-distributed

情况我有一个包含一些地球系统模型数据的大型NetCDF文件。我通过xarray访问文件和数据，并希望通过分布在几个工作人员上的dask处理一个变量(一些计算)。xarray变量的分块方式使处理可以在每个块上单独执行，而不需要来自其他块的信息。块数等于工人数。在定义了计算之后，我调用了compute()。完整的块变量似乎被发送给每个工作人员(参见下面的示例)。相反，我原以为每个工人只能得到一块a，并对其进行计算。我错过了一些重要的事情，但我不知道是什么。极小例子您可以在专用的GitHub存储库：中找到该文件和一个jupyter笔记本。启动两个工作人员，每个工作人员获得内存的350 MB

浏览 2提问于2019-11-15得票数 2

1回答

如何将来自python dask的输出(来自xarray)延迟保存到pandas数据帧中

python、pandas、parallel-processing、dask、python-xarray

我对尝试并行化我的python代码非常陌生。我正在尝试对xarray执行一些分析，然后用结果填充pandas dataframe。数据帧的列是独立的，所以我认为使用dask delayed进行并行化应该是微不足道的，但无法弄清楚如何实现。我的xarray非常大，所以这个循环需要一段时间，而且占用的内存也很大。它也可以被时间分块，如果这样更容易的话(这可能有助于记忆)！下面是未并行化的版本： from time import sleep import time import pandas as pd import dask.dataframe as dd data1 = np.random

浏览 19提问于2021-03-24得票数 1

回答已采纳

1回答

xarray数据集选择方法非常慢

python-3.x、dask、python-xarray

我有37年的NetCDF文件，每天的时间步长，并计算所有年份(13513天)每个单元格的函数。对所有单元格重复此函数的计算。为此，我使用xarray和da.sel方法，但它非常慢，并且没有使用我笔记本电脑的多核。我正在努力弄清楚如何在当前的场景中使用dask。有什么建议可以改进/加速代码吗？ for c in range(len(df)): arr = np.array([]) lon=df.X[c] lat=df.Y[c] for yr in range(1979,2016,1): ds = xr.open_dataset('D:/p

浏览 14提问于2019-06-06得票数 1

1回答

使用dask监视xarray拆分应用合并的进度

python、progress-bar、monitoring、dask、python-xarray

对于我的论文，我尝试计算SLOM分数(参见https://link.springer.com/article/10.1007/s10115-005-0200-2)。这个分数是纯空间的，我正在尝试为更大的数据集计算它。(一年以上)。到目前为止，我创建了一个计算每个时间步的SLOM分数的函数，该函数返回一个包含Slom值的xarray数据数组。我正在尝试计算每个时间步的Slom值。目前，我正在使用groupby: split apply combine策略(http://xarray.pydata.org/en/stable/groupby.html)完成此操作。 grouped_by_t

浏览 11提问于2020-10-06得票数 0

3回答

如果jupyter笔记本已经准备好了，但Dask仪表板仍然显示它正在运行一些任务，我能执行我的下一个单元吗？

python、parallel-processing、dask、python-xarray、dask-distributed

我是Dask的新手。我把它和一个xarray数据集一起使用。我将数据集保存在内存中，jupyter单元显示它已经就绪(不再有星号)。但是dask仪表板正忙着执行任务。我不明白。当这种情况发生时，我应该等到dask仪表板稳定下来，还是可以自由运行下一个单元？

浏览 6提问于2022-02-07得票数 0

1回答

将dask数组写入netcdf

dask、python-xarray、xarray

我试图将一个dask数组写到netcdf文件中，但我得到了一个内存错误，我发现这有点奇怪，因为dask数组的大小并不是太大。它大约是0.04 GB。它的维度如下： <xarray.Dataset> Dimensions: (latitude: 2000, longitude: 5143) Coordinates: * latitude (latitude) float64 -29.98 -29.93 -29.88 -29.83 -29.78 -29.73 ... * longitude (longitude) float64

浏览 3提问于2018-05-23得票数 1

1回答

在嵌套循环中使用dask进行循环并行化

python、for-loop、dask

我只是学习使用达克和阅读这个论坛上的许多与dask和for循环相关的线程。但我仍然不清楚如何应用这些解决方案来解决我的问题。我正在处理气候数据，这些数据的功能是(时间、深度、位置)。“位置”坐标是一个线性索引，因此每个值对应于唯一的(经度、纬度)。假设var1和var2是两个输入变量，我将在下面展示我所要做的工作的基本框架。我想在位置参数'nxy‘上并行化，因为我的计算可以在不同的位置同时进行。 for loc in range(0,nxy): # nxy = total no. of locations for it in range(0,ntimes):

浏览 1提问于2020-04-03得票数 0

回答已采纳

1回答

异步写入Zarr的Xarray

dask、python-xarray、zarr

全。我正在使用Dask分布式集群在循环中编写Zarr+Dask支持的Xarray数据集，而dataset.to_zarr正在阻塞。当存在阻碍循环继续的掉队块时，这真的会减慢速度。有没有一种方法可以异步执行.to_zarr，这样循环就可以继续下一次数据集写入，而不会被几个掉队的块阻塞？

浏览 39提问于2019-12-11得票数 2

回答已采纳

1回答

同时将xarray数据集写入zarr --如何有效地使用dask分布式扩展

python、dask、python-xarray、dask-distributed、zarr

TLDR: 如何有效地使用dask-distributed将许多dask-backed xarray数据集写入AWS S3上的zarr存储区？详细信息我有一个工作流程，它在S3上获取栅格数据集的列表，并生成一个dask数组支持的xarray数据集。我需要迭代多个组，其中每个组的工作流获取属于该组的栅格数据集，并生成相应的xarray数据集。现在，我希望将数据集中的数据写入S3上的扎尔存储(同一存储区，仅使用group参数)。顺序处理的伪代码是这样的： client = Client(...) # using a distributed cluster zarr_store = fs

浏览 6提问于2021-03-23得票数 1

回答已采纳

1回答

我可以使用`xarray.apply_ufunc`并行化`numpy.bincount`吗？

python、numpy、python-xarray

我想使用xarray的apply_ufunc API并行化numpy.bincount函数，下面的代码是我尝试过的： import numpy as np import xarray as xr da = xr.DataArray(np.random.rand(2,16,32), dims=['time', 'y', 'x'], coords={'time': np.array(['2019-04-18', '2019-04-19

浏览 0提问于2019-04-10得票数 2

2回答

无法在xarray numpy.isin DataArray中使用DataArray函数

python、numpy、python-xarray

我有一个名为DataArray的xarray da_temp。它有维数time，latitude和longitude。 time维度是一个小时数据，其坐标范围从2009-01-01T00:00到2009-12-31T23:00。 <xarray.DataArray 'T_SFC' (time: 8760, latitude: 106, longitude: 193)> array([[[13.609406, 13.613037, ..., 16.048492, 16.065308], [13.634644, 13.638123, ..., 16.06

浏览 2提问于2019-07-09得票数 0

1回答

xarray:将时间片“插入”到数据集或数据数组中的最佳方法

python、pandas、time-series、python-xarray

我有一个维度为x、y和time的三维xarray数据集。假设我知道在timestep n处有一个丢失的观察值，那么插入一个没有数据值的时间片的最佳方法是什么？下面是一个有效的示例： import xarray as xr import pandas as pd x = xr.tutorial.load_dataset("air_temperature") # assuming this is the missing point in time (currently not in the dataset) missing = "2014-12-31T07:00:0

浏览 86提问于2021-08-11得票数 1

回答已采纳

1回答

dask=parallelized和dask=allowed在xarray的apply_ufunc中有什么区别？

python、numpy、dask、python-xarray、numpy-ufunc

在函数的apply_ufunc中，它说： dask: ‘forbidden’, ‘allowed’ or ‘parallelized’, optional How to handle applying to objects containing lazy data in the form of dask arrays: ‘forbidden’ (default): raise an error if a dask array is encountered. ‘allowed’: pass dask arrays directly on to func. ‘p

浏览 0提问于2018-08-07得票数 5

回答已采纳

2回答

AttributeError:不能在<模块'xarray.core.indexing‘上获得属性'PandasIndexAdapter’

python、jupyter-notebook、pickle

我正在尝试解压缩一个文件，但是在运行以下代码时我得到了这个错误： import pickle import pandas as pd import numpy unpickled_df = pd.read_pickle("./ToyData.pickle") unpickled_df 或 import pickle # load : get the data from file data = pickle.load(open('ToyData.pickle', "rb")) 错误输出： AttributeError

浏览 3提问于2021-11-04得票数 0

1回答

确定达斯克计算了多少次

python、dask

问题我想知道dask (特别是dask数组)是否有可能知道是否和何时计算了一些内容。我在考虑单元测试，想知道dask计算数组的次数。类似于模拟对象，知道它们被调用了多少次。像这样的东西已经存在了吗？如果没有，还有比制作更好的方法吗？如果不存在这种情况，那么dask核心开发人员是否会有兴趣添加到核心dask中进行测试呢？任何帮助都是非常感谢的。详细信息假设我有一个函数，它接受一个xarray DataArray，对它做一些事情，然后返回它。在有些情况下，dask数组被隐式转换为numpy数组，包括一个新的dask用户，不知道最好的dask友好的方法来做一些事情。我想编写我的单元测试，以确

浏览 1提问于2018-11-13得票数 2

回答已采纳

1回答

在Kubernetes上的Xarray (rasterio)如果.computed被唤醒，Dask找不到路径

kubernetes、distributed、dask、kubernetes-helm、python-xarray

在GC上，我使用舵机和稳定器/ dask回购工具部署了dask。一旦运行并在config.yaml文件中添加了Xarray和Rasterio，我就能够使用xarray.open_rasterio(‘.’)读取文件。如果我试图在对象上调用.compute()，就会发现一个错误，说明rasterio已经创建了一个IOError，因为没有找到这样的文件。我不是第一次发生在我身上在这里复制是我的config.yaml worker: replicas: 3 env: - name: EXTRA_APT_PACKAGES value : libzstd1 - n

浏览 0提问于2019-07-31得票数 0

1回答

达斯克的仪表板上没有显示任何东西

docker、docker-compose、dask

我在我的机器上使用Dask和Docker本地写作(OSX Catalina 10.15.17)。我的停靠-撰写文件与相同，只是我在笔记本容器中添加了一个卷。我可以在默认地址localhost:8787正确地访问仪表板，但是当我启动一些任务时，比如使用xarray或类似的东西： import dask.array as da x = da.random.random((1000,1000,10), chunks=(1000,1000,5)) y = da.random.random((1000,1000,10), chunks=(1000,1000,5)) z = (da.arcsin(x)

浏览 2提问于2020-11-18得票数 1

回答已采纳

1回答

在MemoryError中使用Dask处理大网格的结果

geospatial、dask、amazon-emr、dask-distributed、rasterio

我在亚马逊网络服务的S3上有三个GeoTIFF，每个大小大约500MB，我试图使用Dask在EMR集群上处理它们，但我在处理第一个tiff后获得了一个MemoryError。在使用xarray.open_rasterio()读取GeoTIFF之后，我将网格值转换为布尔值，然后将数组乘以浮点值。此工作流已在三个大小为50 MB的GeoTIFF上成功执行。此外，我还尝试在使用xarray读取数据时使用分块，但获得了相同的结果。 Dask有没有大小限制，或者我可能会遇到的其他问题？

浏览 3提问于2019-07-07得票数 0

1回答

Python:如何用xarray编写大型netcdf

python、dask、python-xarray

我使用xr.mfdataset加载以下数据。有16 is的数据，分布在许多文件中。 import xarray as xr from datetime import datetime from pathlib import Path from dask.diagnostics import ProgressBar def add_time_dim(xda: xr.Dataset) -> xr.Dataset: # https://stackoverflow.com/a/65416801/9940782 xda = xda.expand_dims(time = [da

浏览 62提问于2021-11-02得票数 1

回答已采纳

1回答

如何组合300多个NetCDF文件？

python、netcdf

我尝试将300多个NetCDF文件合并成一个Xarray。但是它已经运行了三天了，最终的NetCDF文件大约有5GB。所有单个NetCDF文件都有1.5GB左右。你能帮我把这些NetCDF文件合并成一个这样的结构吗？ <xarray.Dataset> Dimensions: (lat: 124, lon: 499, time: 79) Coordinates: * lat (lat) float64 50.96 50.96 50.97 50.97 ... 51.27 51.27 51.27 51.27 * lon (lon) float64 16.52

浏览 20提问于2022-03-06得票数 0

1回答

xarray -返回满足特定条件的数据，而不必使用for循环。

python、pandas、numpy、python-xarray

我正在使用多维数据da_criteria_1or0_hourly. 数据(变量)为1或0。 print(da_criteria_1or0_hourly) 输出： <xarray.DataArray (time: 8760, latitude: 106, longitude: 193)> dask.array<shape=(8760, 106, 193), dtype=int32, chunksize=(744, 106, 193)> Coordinates: * latitude (latitude) float32 -39.2 -39.149525 ... -

浏览 0提问于2019-02-07得票数 0

回答已采纳

1回答

切片不工作在达斯克块xarray的

python、slice、dask、python-xarray

我有一个很大的x数组，它有时间，y和x维，并且是时间块= 1，x= 2000，y= 2000。看起来是这样的： <xarray.Dataset> Dimensions: (time: 59, x: 6951, y: 6963) Coordinates: * y (y) float64 5.193e+06 5.193e+06 5.193e+06 ... 5.298e+06 5.298e+06 * x (x) float64 7.475e+05 7.476e+05 7.476e+05 ... 8.518e+05 8.518e+05 * time

浏览 0提问于2019-01-22得票数 0

回答已采纳