首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >关于处理非常大的数据集的建议- HDF5、Python

关于处理非常大的数据集的建议- HDF5、Python
EN

Data Science用户
提问于 2019-03-21 16:48:09
回答 1查看 855关注 0票数 4

最近,我开始开发一个应用程序来可视化非常大的数据集。当在线阅读时,很明显,大多数人使用HDF5来存储大的多维数据集,因为它提供了允许多个维度的多功能性,没有文件大小限制,并且可以在操作系统之间传输。

如何有效地管理非常大的文件?我正在使用具有三个维度的数据集,所有这些数据集都有大量的组件(示例大小: 62, 500 ,000 x3,500,32位int),这有点问题。从理论上讲,HDF5能够处理这个问题,但是,我发现将数据写入文件的速度非常慢,随后检索数据的速度也很慢。由于数据项的数量很大,所以必须压缩数据,否则它在HDD上就会变得异常庞大,然而,压缩需要分块,而分块是非常棘手的.我以(1×500,000 x 3500)块接收数据,因此每次只写一行是有意义的,因此,对于这些维度,我确保块具有维度(1 X n_values X 3500),以加快写入和数据检索,并且具有相对较小的大小(< 1Mb),用于快速压缩/解压。

当每个维度的大小v.大时,有没有人有过如何有效地写入HDF5文件的经验?有什么窍门能帮上忙吗?

我还应该提到Python是我的主要编程语言,但是我很乐意用另一种语言进行编程。我试图通过h5py_cache库增加块缓存。

EN

回答 1

Data Science用户

发布于 2021-05-17 15:55:28

一种选择是切换到比目鱼,它构建在HDF5之上,旨在缓解其中的许多问题。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/47748

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档