Python的h5py模块

1. 核心概念

一个HDF5文件是一种存放两类对象的容器:dataset和group. Dataset是类似于数组的数据集,而group是类似文件夹一样的容器,存放dataset和其他group。在使用h5py的时候需要牢记一句话:groups类比词典,dataset类比Numpy中的数组。 HDF5的dataset虽然与Numpy的数组在接口上很相近,但是支持更多对外透明的存储特征,如数据压缩,误差检测,分块传输。

2. 读取和保存HDF5文件

1) 读取HDF5文件的内容

首先我们应该打开文件:

>>> import h5py
>>> f = h5py.File('mytestfile.hdf5', 'r')

请记住h5py.File类似Python的词典对象,因此我们可以查看所有的键值:

>>> f.keys()
[u'mydataset']

基于以上观测,文件中有名字为mydataset这样一个数据集。然后我们可以用类似词典的方法读取对应的dataset对象。

>>> dset = f['mydataset']

Dset是一个HDF5的dataset对象,我们可以像Numpy的数组一样访问它的属性和数据。

>>> dset.shape
(100,)
>>> dset.dtype
dtype('int32')
>>> dset[...] = np.arange(100)

2) 创建一个HDF5文件

我们用’w’模式打开文件

>>> import h5py
>>> import numpy as np
>>> f = h5py.File("mytestfile.hdf5", "w")

然后我们借助文件对象的一系列方法添加数据。其中create_dataset用于创建给定形状和数据类型的空dataset

>>> dset = f.create_dataset("mydataset", (100,), dtype='i')

我们也可以用现有的Numpy数组来初始化一个dataset

>>> arr = np.arange(100)
>>> dset = f.create_dataset("init", data=arr)

3) 分块存储策略

在缺省设置下,HDF5数据集在内存中是连续布局的,也就是按照传统的C序。Dataset也可以在HDF5的分块存储布局下创建。也就是dataset被分为大小相同的若干块随意地分布在磁盘上,并使用B树建立索引。 为了进行分块存储,将关键字设为一个元组来指示块的形状。

>>> dset = f.create_dataset("chunked", (1000, 1000), chunks=(100, 100))

也可以自动分块,不必指定块的形状。

>>> dset = f.create_dataset("autochunk", (1000, 1000), chunks=True)

3. HDF5的分层结构

“HDF”代表”Hierarchical Data Format”(分层数据格式). HDF5文件中group对象类似于文件夹,我们创建的文件对象本身就是一个group,称为root group.

>>> f.name
u'/'

创建subgroup是使用create_group的方法实现的。但是我们需要先用读写模式打开文件:

>>> f = h5py.File('mydataset.hdf5', 'r+')
>>> grp = f.create_group("subgroup")

然后grp就具有和f一样的方法了。 我们在group上迭代从而得到group内所有的直接附属的成员(包括dataset和subgroup)

>>> for name in f:
...     print name
mydataset
subgroup
subgroup2

为了遍历一个group内的所有直接和间接成员,我们可以使用group的visit()和visititerms()方法,这些方法需要接收一个回调函数作为参数。

>>> def printname(name):
...     print name
>>> f.visit(printname)
mydataset
subgroup
subgroup/another_dataset
subgroup2
subgroup2/dataset_three

4. 属性

HDF5的一个很棒的特点是你可以在数据旁边存储元数据。所有的group和dataset都支持叫做属性的数据形式。属性通过attrs成员访问,类似于python中词典格式。

>>> dset.attrs['temperature'] = 99.5
>>> dset.attrs['temperature']
99.5
>>> 'temperature' in dset.attrs
True

5. 高级特征

1) 滤波器组

HDF5的滤波器组能够对分块数组进行变换。最常用的变换是高保真压缩。使用一个特定的压缩滤波器创建dataset之后,读写都可以向平常一样,不必添加额外的步骤。 用关键词compression来指定压缩滤波器,而滤波器的可选参数使用关键词compression_opt来指定:

>>> dset = f.create_dataset("zipped", (100, 100), compression="gzip")

2) HDF5文件的限制

a. HDF5文件本身大小没有限制,但是HDF5的一个dataset最高允许32个维,每个维度最多可有2^64个值,每个值大小理论上可以任意大 b. 目前一个chunk允许的最大容量为2^32-1 byte (4GB). 大小固定的dataset的块的大小不能超过dataset的大小。

承接Matlab、Python和C++的编程,机器学习、计算机视觉的理论实现及辅导,本科和硕士的均可,咸鱼交易,专业回答请走知乎,详谈请联系QQ号757160542,非诚勿扰。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Python的classmethod修饰符

    classmethod 修饰符对应的函数不需要实例化,不需要 self 参数,但第一个参数需要是表示自身类的 cls 参数,可以来调用类的属性,类的方法,实例化...

    于小勇
  • Linux的watch命令

    -n或--interval watch缺省每2秒运行一下程序,可以用-n或-interval来指定间隔的时间。

    于小勇
  • keras.datasets

    于小勇
  • 李航《统计学习方法》决策树ID3算法实现

    机器学习算法其实很古老,作为一个码农经常会不停的敲if, else if, else,其实就已经在用到决策树的思想了。只是你有没有想过,有这么多条件,用哪个条件...

    Coggle数据科学
  • 奈学教育:“混沌工程”的基本理念和使用原则

    混沌工程师一门新兴的技术学科,它的初衷是通过实验性的方法,让人们建立复杂分布式系统能够在生产中抵御事件能力的信息。

    江帅帅
  • 混沌工程

    混沌工程师一门新兴的技术学科,它的初衷是通过实验性的方法,让人们建立复杂分布式系统能够在生产中抵御事件能力的信息。

    孙玄@奈学教育
  • RunAbove:Power8公有云是x86部署100倍

    随着IBM x86服务器业务出售之后,更多精力将集中在Power产品线上。新一代Power 8处理器基于云数据中心级别的高扩展性,预示Power 8揭开了企业级...

    静一
  • 如果靠声纹检测车辆故障,奔驰维权事件还用哭诉吗?

    场景描述:人工诊断车辆故障的方法并不少,但流程相对繁琐费时。基于大数据,利用计算机视觉技术以及传感器监测手段,对车辆故障进行诊断,能够减少人工工作时间以及检测准...

    HyperAI超神经
  • Scrapy实战2:爬虫深度&&广度优先算法

    以后尽量每天更新一篇,也是自己的一个学习打卡!加油!今天给大家分享的是,Python里深度/广度优先算法介绍及实现。

    龙哥
  • Python 学习入门(10)—— 时间

    Python格式化日期时间的函数为datetime.datetime.strftime();由字符串转为日期型的函数为:datetime.datetime.st...

    阳光岛主

扫码关注云+社区

领取腾讯云代金券