问关于处理非常大的数据集的建议- HDF5、Python
EN

Data Science用户

提问于 2019-03-21 16:48:09

回答 1查看 855关注 0票数 4

最近，我开始开发一个应用程序来可视化非常大的数据集。当在线阅读时，很明显，大多数人使用HDF5来存储大的多维数据集，因为它提供了允许多个维度的多功能性，没有文件大小限制，并且可以在操作系统之间传输。

如何有效地管理非常大的文件？我正在使用具有三个维度的数据集，所有这些数据集都有大量的组件(示例大小: 62, 500 ,000 x3,500，32位int)，这有点问题。从理论上讲，HDF5能够处理这个问题，但是，我发现将数据写入文件的速度非常慢，随后检索数据的速度也很慢。由于数据项的数量很大，所以必须压缩数据，否则它在HDD上就会变得异常庞大，然而，压缩需要分块，而分块是非常棘手的.我以(1×500,000 x 3500)块接收数据，因此每次只写一行是有意义的，因此，对于这些维度，我确保块具有维度(1 X n_values X 3500)，以加快写入和数据检索，并且具有相对较小的大小(< 1Mb)，用于快速压缩/解压。

当每个维度的大小v.大时，有没有人有过如何有效地写入HDF5文件的经验？有什么窍门能帮上忙吗？

我还应该提到Python是我的主要编程语言，但是我很乐意用另一种语言进行编程。我试图通过h5py_cache库增加块缓存。

python

bigdata

hierarchical-data-format

回答 1

Data Science用户

发布于 2021-05-17 15:55:28

一种选择是切换到比目鱼，它构建在HDF5之上，旨在缓解其中的许多问题。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/47748

复制

相似问题

问关于处理非常大的数据集的建议- HDF5、Python
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问关于处理非常大的数据集的建议- HDF5、PythonEN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问关于处理非常大的数据集的建议- HDF5、Python
EN