将大于内存的Dask数组保存到hdf5文件

是一种常见的数据处理需求。Dask是一个开源的并行计算框架，它允许我们在分布式环境中处理大规模数据集。hdf5文件是一种高效的数据存储格式，它可以有效地存储和检索大规模数组数据。

要将大于内存的Dask数组保存到hdf5文件，可以按照以下步骤进行操作：

导入所需的库和模块：

import h5py
import dask.array as da

创建一个大于内存的Dask数组：

array = da.random.random((10000000, 100), chunks=(1000000, 100))

上述代码创建了一个大小为10000000x100的随机数数组，使用了chunks参数将数组划分为大小为1000000x100的块。

创建一个hdf5文件并将Dask数组保存到该文件中：

with h5py.File('output.hdf5', 'w') as f:
    dset = f.create_dataset('data', shape=array.shape, dtype=array.dtype)
    da.store(array, dset)

上述代码使用h5py库创建了一个名为'output.hdf5'的hdf5文件，并创建了一个与Dask数组相同大小和数据类型的数据集'data'。接下来，使用Dask的store函数将Dask数组存储到该数据集中。

关闭hdf5文件：

f.close()

至此，大于内存的Dask数组已经成功保存到hdf5文件中。

应用场景：将大于内存的数据存储到hdf5文件是在处理大规模数据集时常见的操作。例如，在科学计算、机器学习、数据分析等领域，经常需要处理大量的数据。使用Dask可以高效地进行并行计算和存储，而hdf5文件能够有效地存储和检索大规模数组数据。因此，将大于内存的Dask数组保存到hdf5文件非常适用于处理大数据集的场景。

推荐的腾讯云相关产品：

腾讯云对象存储（COS）：提供高可用、高可靠、低延迟的对象存储服务，适用于存储和管理各种类型的大规模数据。产品介绍：https://cloud.tencent.com/product/cos
腾讯云云服务器（CVM）：提供弹性、高性能的虚拟服务器，可根据业务需求快速扩展或缩减计算资源。产品介绍：https://cloud.tencent.com/product/cvm
腾讯云云数据库（CDB）：提供高性能、可扩展的关系型数据库服务，适用于存储和管理结构化数据。产品介绍：https://cloud.tencent.com/product/cdb

请注意，上述推荐的腾讯云产品仅供参考，具体选择应根据实际需求和预算进行评估。

选择将Dask数组保存到hdf5文件的模式

、

当我将dask数组保存到hdf5文件时，我可以选择文件模式吗？import dask.array as daa.to_hdf5('a.hdf5', '/a', mode='a')...

浏览 3提问于2018-08-04得票数 0

回答已采纳

1回答

从hdf5文件中打乱Dask数组块

、、

我在hdf5文件中存储了一个非常大的数组。我正在尝试加载它，并将其作为一个Dask数组来管理。目前，我面临的挑战是，我需要在一个过程中不时地对这个数组进行洗牌，这本身就是一个挑战，要对一个大于内存的数组进行洗牌。因此，我试图做的，但没有成功，是洗牌的dask数组块。

浏览 3提问于2017-10-31得票数 1

回答已采纳

1回答

将大于内存的Dask数组保存到hdf5文件

、、

在使用分布式dask时，我需要将dask数组保存到hdf5。我的情况与本期中描述的情况非常相似：https://github.com/dask/dask/issues/3351。() 我目前正在解决这个问题，方法是将我的计算分成小块提交给调度器，将结果收集到内存中，并使用h5py保存数组，但这样做非常非常

浏览 16提问于2020-07-15得票数 1

回答已采纳

1回答

了解将多个文件内容加载到Dask Array的过程及其扩展方式

在上使用示例dsets = [h5py.File(fn)['/data'] for fn in filenames]in dsets]我很难理解下一行，以及它是一个"dask数组“的dask_array还是一个”普通

浏览 10提问于2016-08-27得票数 1

回答已采纳

1回答

如何将多只熊猫的数据连成一个比内存大的dask数据？

、、、、

我正在解析由制表符分隔的数据，以创建表格数据，我希望将其存储在HDF5中。import pandas as pdimport dask.dataframe as dd total_df = da.concatenate([total_df, df]) # crea

浏览 3提问于2016-10-09得票数 14

回答已采纳

1回答

作为hdf5 python的核心4D图像tif存储

、、

我有27 3D的2D tiff文件，表示一部3D图像的切片。我希望能够像简单的numpy4d数组一样分割这些数据。看起来，dask.array是一个很好的工具，一旦数组作为hdf5文件存储在内存中，就可以干净地操作它。如果这些文件不是全部放入内存中，那么首先如何将这些文件存储为hdf5文件。

浏览 4提问于2015-08-11得票数 3

回答已采纳

1回答

在并行向HDF5文件写入数据时，dask如何管理任务？

、、

我想使用python在一个大型数组上并行计算。输入数组和输出数组都不在内存中。此外，写入输出文件是一个潜在的瓶颈(因为例如，HDF5通常不支持并行写入)。dask.array.map_blocks(func).store(...) 在等待写出生成的块时，dask如何决定将多少新块放入内存(即读入并开始计算)？据推测，如果它试图使CPU完全被占用，就有可能导致python达到内存限制

浏览 12提问于2018-02-12得票数 2

回答已采纳

1回答

有没有可能序列化xarray DataArray，它包含指向文件的延迟dask数组数据？

、、、、

我已经从多个源hdf5文件构建了一个巨大的dask数组。假设数据只来自一个hdf5文件：import h5pydask_arr = da.from_array(h5_data, chunks=chunksize) 然后，我将<e

浏览 1提问于2019-12-18得票数 2

1回答

使用Python从hdf5文件到csv文件

、、、、

我必须处理hdf5文件。它们中的每一个都包含可以加载到由100列和近5E5行组成的pandas DataFrame中的数据。每个hdf5文件重约130MB。因此，我想从hdf5文件中获取数据，然后应用一些处理，最后将新数据保存到csv文件中。在我的例子中，过程的性能非常重要，因为我必须重复它。到目前为止，我一直专注于Pandas和Dask

浏览 23提问于2021-02-22得票数 0

2回答

使用dask存储更大的csv文件，然后再存储到hdf5文件

、、

任务:读取大于内存的csv文件，转换为数组并存储在hdf5中。一种简单的方法是用熊猫大块地读取文件，但我想使用dask，到目前为止，还没有成功：fname='test.csv' dset = dd.read_csv(fname, sep=',',实际上，我有一组csv文件，表示3D数组的2D切片，我想要组装和

浏览 3提问于2018-10-01得票数 2

回答已采纳

1回答

如何使用dask并行导入hdf5数据并创建dataframe？

、、、

我完全被困住了，所以我正在寻求善意的建议。我的目标是并行读取多个hdf5文件，提取内部的多个模糊数组，并将每个数组存储在一个dataframe的一行，准确地说是一个单元格中。不可能使用read_hdf()从用h5py创建的hdf5文件中读取。我能做些什么来用paralleL中的dask导入数千个hdf5 5文件，并访问其中<em

浏览 0提问于2021-09-30得票数 1

回答已采纳

1回答

Dask:读取hdf5并写入其他hdf5文件

、、、

我正在处理一个比内存更大的hdf5文件。因此，我试图使用dask来修改它。我的目标是加载文件，做一些修改(不一定要保持形状)，并将其保存到其他文件中。我创建我的文件时：import numpy as np x = np.zeros((3, 3)) # Infrom dask<

浏览 5提问于2022-07-07得票数 0

回答已采纳

1回答

Dask/hdf5 5:分组阅读？

、、、

我必须阅读并独立地操作一个大型dataframe/numpy数组的许多块。但是，这些块是以一种特定的、不统一的方式选择的，并且在hdf5文件中被自然地分成几个组。每个组都足够小，可以容纳到内存中(尽管没有限制，我认为标准的分块过程应该足够了)。特别是，而不是 x = da.from_array(f['/data']

浏览 3提问于2016-10-12得票数 2

回答已采纳

1回答

dask / pandas分类转换差异

、、、

我管理的csv文件比内存大，大部分是分类数据。最初，我会创建一个很大的csv文件，然后通过Pandas read_csv读取它，转换为分类文件并保存为hdf5。一旦进入分类格式，它就会很好地存储在内存中。文件越来越多，我搬到了Dask。不过，过程是一样的。有了Dask，空值被填充了NaN，它被作为一个单独的类别包含在内，从哪里保存到HDF中，我

浏览 0提问于2016-10-10得票数 1

2回答

如何将大文件读取为Pandas dataframe？

、、、、

我想读取一个大文件(4GB)作为一个Pandas数据文件。由于直接使用Dask仍然会消耗最大的CPU，所以我将文件读取为熊猫数据格式，然后使用dask_cudf，然后转换回熊猫数据格式。但是，我的代码仍在使用Kaggle上的最大CPU。GPU加速器开机。import pandas as pd from dask_cuda impor

浏览 12提问于2022-07-31得票数 2

1回答

Dask是一个文档良好的可伸缩库，用于并行处理，使用基于图形的工作流在编写许多具有固有并行性的应用程序时非常有用。然而，当并行写入hdf5文件时，这是相当困难的，特别是在使用多进程调度器时。_thread.lock objects 多线程调度器还可以，但它在读取单个大型csv文件并将其转换为hdf5文件时速度太慢。使用多进程调度器，它的速度很快，能够在最大负载下使用所有CPU，但hdf写入失败并出现

浏览 11提问于2017-03-01得票数 2

1回答

如何在线程调度程序中利用多线程？

、、

我对Dask的本地线程调度程序感兴趣。此调度程序可以使用多个线程从多维数组中“并行”加载数据块。我对I/O界问题感兴趣，所以暂时不考虑计算密集型应用。使用Dask的存储方法从随机数组加载和保存数据的一些速度测试似乎证实了这一事实:随着块大小的增加，性能下降(据说是因为最小块增加了并行性)。在这个实验中，我使用没有物理块的hdf5文件:1包含数组中所有数据的</em

浏览 4提问于2019-11-02得票数 2

回答已采纳

2回答

Dask数据帧大于内存

、、

我是Dask的新手，我发现它非常有用，但我有一个问题还没能解决。问题是，在此删除之后，数据集仍将大于内存。因此，需要通过文件计算结果，并直接保存到磁盘。from dask.distributed import

浏览 5提问于2020-10-16得票数 2

1回答

Dask阵列+ hdf5读取性能

我有大量的大整数数组存储在hdf5 5格式的文件中。我发现将这些数据表示为dask数组(相对于h5py.File对象列表)是方便的数据索引，但是从磁盘加载数据片非常缓慢。下面是一个示例，其中dsets是h5py.File对象的列表，x是由这些h5py.File对象构造的dask.array。dask数组的分块与h5py.File对象的</

浏览 4提问于2017-09-09得票数 2

1回答

Dask -创建空数组来填充和保存它

、

我想要创建一个巨大(>100 it )的dask数组，然后用我计算的值填充它。然后我想将它保存为一个hdf5文件。我选择了这是我的密码：chunks = 50000我在赋值时得到了错误 NotImplementedError: Item assignment with <class

浏览 1提问于2019-06-12得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

将大于内存的Dask数组保存到hdf5文件

相关·内容

选择将Dask数组保存到hdf5文件的模式

从hdf5文件中打乱Dask数组块

将大于内存的Dask数组保存到hdf5文件

了解将多个文件内容加载到Dask Array的过程及其扩展方式

如何将多只熊猫的数据连成一个比内存大的dask数据？

作为hdf5 python的核心4D图像tif存储

在并行向HDF5文件写入数据时，dask如何管理任务？

有没有可能序列化xarray DataArray，它包含指向文件的延迟dask数组数据？

使用Python从hdf5文件到csv文件

使用dask存储更大的csv文件，然后再存储到hdf5文件

如何使用dask并行导入hdf5数据并创建dataframe？

Dask:读取hdf5并写入其他hdf5文件

Dask/hdf5 5:分组阅读？

dask / pandas分类转换差异

如何将大文件读取为Pandas dataframe？

使用多进程调度程序将Dask阵列并行写入HDF5失败

如何在线程调度程序中利用多线程？

Dask数据帧大于内存

Dask阵列+ hdf5读取性能

Dask -创建空数组来填充和保存它

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐