我试图在nc文件中加载多年的每日数据(每年一个nc文件)。单个nc文件的维度为365 (天)* 720 (lat) * 1440 (lon)。所有nc文件都在"data“文件夹中。
import xarray as xr
ds = xr.open_mfdataset('data/*.nc',
chunks={'latitude': 10, 'longitude': 10})
# I need the following line (time: -1) in order to do quant
我尝试使用xarray的apply_ufunc来包装numpy的gradient函数,以便沿一维进行渐变。但是,apply_ufunc返回的数组与使用np.gradient直接返回的数组的形状不同:
import xarray as xr
import numpy as np
def wrapped_gradient(da, coord):
"""Finds the gradient along a given dimension of a dataarray."""
dims_of_coord = da.coords[coo
我正在尝试解压缩一个文件,但是在运行以下代码时我得到了这个错误:
import pickle
import pandas as pd
import numpy
unpickled_df = pd.read_pickle("./ToyData.pickle")
unpickled_df
或
import pickle
# load : get the data from file
data = pickle.load(open('ToyData.pickle', "rb"))
错误输出:
AttributeError
我有以下基本代码,这些代码(我认为)应该设置xarray来使用LocalCluster。
from dask.distributed import Client
client = Client("tcp://127.0.0.1:46573") # this points to a LocalCluster
import xarray as xr
ds = xr.open_mfdataset('*.nc', combine='by_coords') # Uses dask to defer actually loading data
我现在开始一
在函数的apply_ufunc中,它说:
dask: ‘forbidden’, ‘allowed’ or ‘parallelized’, optional
How to handle applying to objects containing lazy data in the form of dask arrays:
‘forbidden’ (default): raise an error if a dask array is encountered.
‘allowed’: pass dask arrays directly on to func.
‘p
我有一个很大的xarray.Dataset存储为zarr。我想对它执行一些自定义操作,这些操作不能仅使用Dask集群将自动处理的类似numpy的函数来完成。因此,我将数据集划分为较小的子集,并为每个子集向我的Dask集群提交以下形式的任务 def my_task(zarr_path, subset_index):
ds = xarray.open_zarr(zarr_path) # this returns an xarray.Dataset containing a dask.array
sel = ds.sel(partition_index)
sel = s
我对尝试并行化我的python代码非常陌生。我正在尝试对xarray执行一些分析,然后用结果填充pandas dataframe。数据帧的列是独立的,所以我认为使用dask delayed进行并行化应该是微不足道的,但无法弄清楚如何实现。我的xarray非常大,所以这个循环需要一段时间,而且占用的内存也很大。它也可以被时间分块,如果这样更容易的话(这可能有助于记忆)! 下面是未并行化的版本: from time import sleep
import time
import pandas as pd
import dask.dataframe as dd
data1 = np.random
我想从.csv文件中创建一个简单的图表,这个图表是从API中获取的。
我导入库,传递dataframe,并获得错误:
TypeError: <class 'numpy.typing._dtype_like._SupportsDType'> is not a generic class
代码:
import plotly.express as px
df=pd.read_csv('file.csv')
问题可能是什么,这个错误意味着什么?
全错误回溯:
TypeError Traceba
我在每个网格箱中输入了一些总水量的大气模式数据。我正在尝试从这些输入数据计算云顶高度;因此,对于每一列,我需要找到输入数据大于阈值的最高实例。 我的输入数据是nz x ny x nx的100 x 900 x 900。我的数据通过dask和100 x 50 x 50块加载到xarray中。传统上,我会这样做: cloud_top_height = numpy.zeros((900,900)
for x in range(0, nx):
for y in range(0, ny):
cloud_top_found = false
for z in range(nz, 0, -