从Dask数组中选取大量切片的最佳方法_从数组中检索对象的最佳方法_从文件中读取数组的最佳方法 - 腾讯云开发者社区

dask、dask-distributed

我正在使用Dask数组生成分布在几个节点中的大型(65kx65kx3) 3D信号。在下一步中，我需要使用存储在Dask包中的切片从这个数组中提取几千个瓦片。我的代码如下所示： import dask.array as dafrom dask.distributed import Client def pick_til

浏览 16提问于2020-01-15得票数 1

3回答

使用经纬度坐标从卫星图像中获取最近的像素值

python、gis、netcdf、python-xarray、satellite-image

加载到dask数组中。我想获取感兴趣的纬度、经度的像素值(最近的)。from satpy import Sceneimport os 我在

浏览 35提问于2021-03-02得票数 1

回答已采纳

5回答

存储多维数组/张量的最佳方法

scala

我正在尝试在scala中创建一个张量(可以被认为是一个多维数组)包。有没有存储多维数组的最佳方法？如果不是，比如一维数组是最好的解决方案，那么如何对数组进行最佳切片(一些具体的代码会对我有很大帮助)？

浏览 1提问于2011-08-02得票数 4

回答已采纳

1回答

使用dask和多进程优化内存使用

python、pandas、multiprocessing、dask

我使用dask来处理来自许多参数变化的数据，在这些参数中，我的目标是从由小于2000的形状的小数组构造的dask数组的操作中，生成一个60万(案例或列的数目)的最终dask数据。：我正在使用池星图来加速8核CPU的操作，并将结果放入一个dask数组中

浏览 2提问于2021-03-10得票数 1

回答已采纳

1回答

SatPy一次加载所有通道

python、gis、satpy

我有一个场景对象，我想把所有的通道加载到一个数字数组的形状(24,24,3)。其中3是频道的数目。是否有一种方法可以得到带一行的堆叠的数字数组。这需要5秒为每个框，我有许多文件，它将需要非常长的时间来做相同的操作，在一个图像中的多个框，多个图像。

浏览 8提问于2022-04-05得票数 2

回答已采纳

1回答

有没有可能序列化xarray DataArray，它包含指向文件的延迟dask数组数据？

python、serialization、deserialization、dask、python-xarray

我已经从多个源hdf5文件构建了一个巨大的dask数组。, "r")然后，我将dask数组中的(惰性)切片排列到一个xarray数据集中# Note: In reality, xr_data a

浏览 1提问于2019-12-18得票数 2

1回答

创建分布式dask数组

python、distributed、dask

我感兴趣的是从我所拥有的一堆netcdf文件中创建一个分布式的dask数组。我从中概述的路径开始，但被“distributed.collections”的贬义所困扰。现在创建分布式dask数组的最佳方法是什么？我有我的达克调度程序和达克工作任务正在运行。

浏览 5提问于2017-09-15得票数 1

回答已采纳

1回答

使用xarray将zarr文件转换为netcdf，导致内存分配错误。

python、memory-leaks、netcdf、python-xarray、zarr

我的电脑有32‘t的内存，所以写5.5GB的块应该不是问题。然而，在运行此脚本后的几秒钟内，我的内存使用量很快就超过了可用的~20 my，脚本就失败了。资料来源：至zarr文件，包含美国2014年6月28日的雷达降雨数据，总数约为1.8GB。MemoryError: Unable to allocate 5.48 GiB for an array with shape (30, 3500, 7000) and data type float64das

浏览 14提问于2022-08-17得票数 1

回答已采纳

1回答

任务调度程序为空/未显示图形

python、dask、dask-distributed、dask-delayed

我的设置如下：from dask.distributed import Clientfrom tasks import task1, task2, task3*args) out.compute() 这个逻辑是从luigi借用的，可以很好地与if语句配合使用，以控制要运行的任务然而，一些任务从SQL加载大量

浏览 3提问于2020-11-19得票数 0

1回答

写入xarray数据集要比读取它慢得多？

python、geospatial、netcdf、python-xarray

包含这些文件的目录的总大小约为750 Mb。在这里，我比较了使用xr.open_dataset和xr.open_mfdataset读写单个文件的情况。ds_sel = ds_all.isel(time=1)Wall time: 19.6 msCPU times: user 3.89 s, sys: 11.9 ms,

浏览 25提问于2022-08-05得票数 1

回答已采纳

1回答

迭代看似相同的dask数组需要不同的时间。

python、dask

我试图读取混合文件(npy，csv等)的未知大小使用达斯克。文件将被转换为数组，并在进行一些涉及切片的操作之前合并为一个数组。使用dask.dataframe.read_

浏览 3提问于2019-12-11得票数 0

回答已采纳

1回答

如何处理并行返回大结果的小数据帧

pandas、dataframe、parallel-processing、multiprocessing、dask

我有一个大约6000万行的Pandas DataFrame。前60行对应于第一组，依此类推。这些组中的每一个都需要并行处理，并且每个组返回一个大于4 4GB的NumPy数组。显然，Dask不能很好地处理大型任务图。为了避免使用大型任务图，我将函数替换为使用大型数据帧(包含多个组)并在函数中处理该数据帧的每个组的函数(类似于multiprocessing方法)。然而，再一次，大多数进程大部分时间都处于休眠状态，我无法

浏览 28提问于2021-03-11得票数 1

1回答

将numpy解决方案转换为dask* (numpy索引在dask中不起作用)*

python、numpy、dask、dask-distributed

我正在尝试将蒙特卡罗模拟从numpy转换为dask，因为有时数组太大，无法进入内存。因此，我在云中设置了一个计算机集群:我的dask集群由24个核心和94 GB内存组成。因此，这个数组的最后一个shape是: 1，1，sim_count，sim_days (在前一点中解释过) future_panel是一个ndarray，具有从historical_multidim中随机选取的

浏览 0提问于2018-08-23得票数 31

1回答

如何在多个dask数组之间共享相同的索引

dask

dask数组.在getitem方法中，我调用da.Array.compute方法(代码仍然处于非常早期的状态)，因此我可以迭代子数组的批处理。m2 = m[m.type==2] 它按预期工作，我得到切片数组，但结果是我有一个巨大的内存消耗，我假设在后台的机制是复制每个子dask数组的索引。(我试图不“计算”getitem

浏览 1提问于2019-01-13得票数 1

2回答

python dask包是否像掩码数组一样支持numpy？

python、dask、masked-array

有没有一种方法可以使用Python包来模拟掩码数组，并考虑掩码进行计算，就像在Numpy中一样：value = 9999result = (mdata * 2 + 10) 在软件包文档中，我只找到了dask.arrays，它等同于Numpy ndarray，并且没有掩码。此外，使用另一个数组</em

浏览 0提问于2016-12-06得票数 1

1回答

有没有一种有效的方法将dask.array的每一行(或每一列)乘以一个向量元素？

python、arrays、numpy、dask

我在dask中有一个(巨大的) 2D数组，它放不下内存，需要将每一列乘以相应数量的向量。也就是说，我想映射M(i，j)→x(i)*M(i，j)。我目前的计划是从向量生成一个dask数组，然后映射一个零矩阵(与原始矩阵大小相同)，以重

浏览 20提问于2020-02-08得票数 1

2回答

Numpy数组切片

python、arrays、numpy、scipy、numeric

我有一个一维numpy数组，以及一些偏移量/长度值。我想从这个数组中提取属于offset，offset+length的所有条目，然后使用这些条目从原来的数组中构建一个新的'reduced‘数组，该数组只包含由偏移量/长度对选取的那些值。对于单个偏移量/长度对，这对于标准数组切片[offset:offset+

浏览 2提问于2012-06-16得票数 4

回答已采纳

1回答

Python删除列

python、csv

我正在尝试使用Python从我的数据框中删除最后两列。问题是在最后两列中有我们不需要的值的单元格，并且这些列没有标题。下面是我写的代码，但我是Python新手，不知道如何获取原始数据并删除最后两列。

浏览 2提问于2016-06-29得票数 1

2回答

基于浮点权的随机选择

php、random

假设我有一个具有下列值的数组：0.92321925.2362123例如，值2.4652474被拾取的可能性是值1.2326237的两倍。

浏览 2提问于2011-06-21得票数 0

回答已采纳

1回答

Dask阵列+ hdf5读取性能

dask

我有大量的大整数数组存储在hdf5 5格式的文件中。我发现将这些数据表示为dask数组(相对于h5py.File对象列表)是方便的数据索引，但是从磁盘加载数据片非常缓慢。下面是一个示例，其中dsets是h5py.File对象的列表，x是由这些h5py.File对象构造的dask.array。dask数组的分块与h5py.File

浏览 4提问于2017-09-09得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云