如何从压缩的.npy文件创建Dask数组？_如何从多个文件创建单个dask数组？_从延迟的dask数组创建dask数据帧 - 腾讯云开发者社区

dask

我有一个很大的数据集存储为压缩的npy文件。如何将给定的子集堆叠到Dask数组中？我知道dask.array.from_npy_stack，但我不知道如何使用它。这是一个粗略的第一次尝试，它耗尽了我所有的内存： import numpy as np data = np.load('da

浏览 11提问于2020-07-22得票数 0

回答已采纳

1回答

避免同时读取dask数组的多个文件

python、dask

从一个库中，我得到一个函数，它读取一个文件并返回一个numpy数组。每个块都是在文件上调用函数的结果。当我要求Dask计算时，Dask会要求函数同时从硬盘读取多个文件吗？import numpy as np impo

浏览 0提问于2018-08-06得票数 1

1回答

使用Dask从hdf5文件到numpy堆栈的写入时间长，读取时间短

arrays、numpy、store、dask、hdf5

本实验使用只有一个线程('single-thread')的Dask线程调度器从单个hdf5文件加载一个大小约为5 5GB的数组，并使用dask数组的to_npy_stack方法将其写回到50个npy文件中读写都是在HDD上完成的，因此我选择使用一个线程。正如我们在下图中所看到的，dask诊断工具显示黄色<em

浏览 14提问于2019-12-13得票数 0

1回答

如何有效地将npy转换为xarray / zarr

python、dask、python-xarray、zarr

我有一个37 GB的.npy文件，我想要转换到扎尔商店，以便我可以包括坐标标签。在理论上，我有这样做的代码，但我一直没有内存。我想在中间使用Dask来方便，但是我仍然内存不足。数据是人的股骨软骨的“厚度图”。每个映射都是一个310x310浮点数数组，其中有47789个。因此，数据形状为(47789,310,310)。

浏览 10提问于2022-06-17得票数 4

回答已采纳

1回答

我有许多需要存储为dask数组的大型numpy数组。在尝试从.npy加载每个数组，然后将其转换为dask.array时，我注意到内存使用率几乎与常规numpy数组一样多，即使在将arr加载到dask.array之后执行del arr之后也是如此。: 1 print(f'Array ref count after conversion: {sys.getrefcount(arr) - 1}') #

浏览 2提问于2021-07-23得票数 0

2回答

Dask和numpy -在numpy数组和dask数组之间的缓慢转换

python、numpy、dask、dask-distributed

我需要从一个大的numpy数组中保存一个dask数组。下面是一个最小的工作示例，展示了该过程。请注意，a是使用numpy.random创建的，但不幸的是，我不能使用dask创建数组。= da.from_array( a, chunks = 100000)client.c

浏览 22提问于2020-02-20得票数 0

回答已采纳

1回答

如何从多个文件创建单个dask数组？

python、arrays、dask、dask-distributed

我正在尝试从多个文件创建单个dask array。我正在使用dask.array.Array类来做这件事。考虑以下代码片段，其中我生成了大小为(3, 10, 10)的100随机整数array，并将它们分别保存在一个单独的npy文件中。然后，我尝试创建一个dask array，将所有这些数组组合成一个形状为(3, 100, 100)的dask ar

浏览 3提问于2020-02-17得票数 0

回答已采纳

1回答

将大量图像保存为数组

python、numpy、image-processing

我有大量的视频，我想提取帧，预处理，然后为每个视频创建一个数组。到目前为止，我已经创建了数组，但是每个数组的最终大小对于所有视频来说都太大了。我有224个视频，每个视频产生一个6GB的数组，总计超过1.2TB。我尝试过使用numpy.save和pickle.dump，但两者在系统上都创建了相同的大小。一般来说，你有推荐或替代的方法吗？

浏览 2提问于2019-10-19得票数 0

回答已采纳

4回答

有效地将CSV转换为numpy NPY

python、numpy、csv、tensor、feature-store

如何有效地将.csv文件转换为.npy文件？", vec)另外，这里有

浏览 58提问于2022-10-13得票数 0

2回答

使用Lock创建Dask延迟。错误：_thread._local没有execution_state

python、dask

我想创建一个包含多个块的Dask数组。每个块都来自一个读取文件的函数。为了避免同时从硬盘读取多个文件，我遵循答案并使用锁。但创建交易时会出现以下错误：测试：import dask impo

浏览 1提问于2018-08-07得票数 2

回答已采纳

1回答

Dask串连一系列数据

python、pandas、dataframe、dask

我有一个丹克系列的潘达斯DataFrames。我想使用dask.dataframe.multi.concat将其转换为Dask DataFrame。我可以在Dask系列的Pandas DataFrames上执行一个compute，以得到一个Pandas系列的DataFrames，在这个时候我可以把它变成一个列表。但我认为最好不要打电话给compute，而是直接从Dask系列Pandas DataFrames上购买Dask DataFr

浏览 1提问于2019-10-22得票数 1

回答已采纳

1回答

迭代看似相同的dask数组需要不同的时间。

python、dask

我试图读取混合文件(npy，csv等)的未知大小使用达斯克。文件将被转换为数组，并在进行一些涉及切片的操作之前合并为一个数组。使用<e

浏览 3提问于2019-12-11得票数 0

回答已采纳

1回答

如何从大量的npy文件堆栈中创建Zarr数组？

python、google-cloud-storage、dask、zarr

我有一个4维numpy数组的堆栈，保存为.npy文件。每一个大约1.5GB，我有240个文件，所以大约360 GB的总数和比内存大得多。我想把它们组合成Google云存储桶中的一个Zarr数组。我的第一次尝试是初始化第一个维度中为空的zarr数组，如下所示 gcsfs.GCSFileSystem(project=<project-name>).get

浏览 6提问于2022-09-28得票数 0

1回答

创建内存效率高的大型.npy文件

python、numpy

我正在尝试创建非常大的.npy文件，并且遇到了一些困难。例如，我需要创建一个(500,1586,2048，3)矩阵，并将其保存到npy文件中。创建一个包含所有数据的ndarray，然后使用savez_compressed导出它。这会将我所有的数据输入数组，但这对内存效率来说是很糟糕的。如果我能把它转换成压缩格式，我会很高兴的，但我就是搞不懂。如果可能的话

浏览 5提问于2020-08-06得票数 0

2回答

为什么numpy.save为sys.getsizeof 0.33MB数据生成100 for文件？

python、numpy

我有一个numpy数组arr (由多个不匹配长度的嵌套列表产生)，它显然只需要 np.save(myf, arr)生成的文件test.npy的大小超过100 be。为什么会这样呢？我在测量python内存中的实际数据大小时犯了什

浏览 8提问于2020-07-08得票数 0

回答已采纳

2回答

如何在文件系统容量有限的情况下保存一个大的‘`numpy`’as '*.npz‘数组？

python、python-3.x、numpy、low-memory

我有一个numpy数组，它保存为未压缩的'*npz‘文件，大约是26个GiB，因为它是numpy.float32，numpy.savez()的结尾是：我认为压缩后的保存可能会节省时间，但使用numpy.savez_compre

浏览 2提问于2018-02-28得票数 0

回答已采纳

1回答

达克能以块读取压缩文件吗？

python、dask

Dask能够读取块压缩的文件吗？在读取文件时，我在.xz中收到了一些错误，Val

浏览 1提问于2019-01-15得票数 0

2回答

dask定制DataFrame加载

python、dataframe、dataset、dask、large-files

我有一个定制的文件格式，我想要懒洋洋地加载和处理，如果它是一种数据格式，它将是有用的。我的问题是，需要读取数据集才能生

浏览 5提问于2022-05-04得票数 0

3回答

读取Parquet文件时在Pandas中创建内存错误数据

pandas、dataframe、dask、parquet、vaex

我已经创建了一个用gzip压缩的拼花文件。压缩后的文件大小为137 MB。当我试图通过Pandas、dask和vaex读取拼花文件时，我会发现内存问题：df = pd.read_parquet("C:\\files\\test.parquet")OSError: Out of memory: realloc of size 3915749376

浏览 22提问于2020-11-26得票数 1

5回答