文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在hdf5文件中的组内创建数据集？

问如何在hdf5文件中的组内创建数据集？
EN

Stack Overflow用户

提问于 2021-09-14 13:25:41

回答 2查看 661关注 0票数 0

我想要创建一个包含两个数据集的路径“粒子/脂质/位置”的组，例如粒子是主组，脂类是包含脂质名称的数据集，而位置将包含每个帧中脂质的位置。我尝试过这样做，但是在代码的第40行中从前面的答案码源中得到了以下错误

 ValueError: Unable to create group (name already exists)

import struct
import numpy as np
import h5py

csv_file = 'com'

fmtstring = '7s 8s 5s 7s 7s 7s'
fieldstruct = struct.Struct(fmtstring)
parse = fieldstruct.unpack_from

#define a np.dtype for gro array/dataset (hard-coded for now)
gro_dt = np.dtype([('col1', 'S7'), ('col2', 'S8'), ('col3', int), 
                   ('col4', float), ('col5', float), ('col6', float)])

with open(csv_file, 'r') as f, \
     h5py.File('xaa.h5', 'w') as hdf:
         
    step = 0
    while True:         
        header = f.readline()
        if not header:
            print("End Of File")
            break
        else:
            print(header)

        # get number of data rows
        no_rows = int(f.readline())
        arr = np.empty(shape=(no_rows,), dtype=gro_dt)
        for row in range(no_rows):
            fields = parse( f.readline().encode('utf-8') )
            arr[row]['col1'] = fields[0].strip()            
            arr[row]['col2'] = fields[1].strip()            
            arr[row]['col3'] = int(fields[2])
            arr[row]['col4'] = float(fields[3])
            arr[row]['col5'] = float(fields[4])
            arr[row]['col6'] = float(fields[5])
        if arr.shape[0] > 0:
            # Create a froup to store positions
            particles_grp = hdf.create_group('particles/lipids/positions')
            # create a dataset for THIS time step
            ds= particles_grp.create_dataset(f'dataset_{step:04}', data=arr,compression='gzip') 
            #ds= hdf.create_dataset(f'dataset_{step:04}', data=arr,compression='gzip') 
            #create attributes for this dataset / time step
            hdr_tokens = header.split()
            particles_grp['ds'] = ds
            ds.attrs['raw_header'] = header
            #ds.attrs['Generated by'] = hdr_tokens[2]
            #ds.attrs['P/L'] = hdr_tokens[4].split('=')[1]
            ds.attrs['Time'] = hdr_tokens[6]
            
        footer = f.readline()
        step += 1

小数据文件在这里链接，数据文件。在当前的代码中，每个帧都存储在dataset1、2...so on中。我希望这些数据集存储在粒子组中。我不太确定这是否是以后最好的方法，因为我想使用这些框架进行进一步的计算！谢谢！！

python

hdf5

h5py

回答 2

Stack Overflow用户

回答已采纳

发布于 2021-09-14 14:19:05

正如前面的答案所指出的，您尝试使用以下函数在while循环中创建相同的组：

particles_grp = hdf.create_group('particles/lipids/positions')

您在第二次调用它时会得到一个错误(b/c组已经退出)。

相反，使用此函数创建组对象：

particles_grp = hdf.require_group('particles/lipids/positions')

require_group()很聪明(而且很有用)。如果这个组不存在，它将创建它。而且，当组已经存在时，它将简单地返回组对象。

对您的代码进行更改，它将不受任何其他更改的影响。

或者，您可以将create_group()调用移动到while True:循环的上方(因此只调用一次)。

票数 1

Stack Overflow用户

发布于 2021-09-14 13:34:07

您正在运行代码行：

particles_grp = hdf.create_group('particles/lipids/positions')

在你的时间循环里。这意味着您要多次在hdf5文件中创建组，这是不可能的(因为名称是硬编码的)。试试这样的东西。

with open(csv_file, 'r') as f, \
     h5py.File('xaa.h5', 'w') as hdf:
    # Create a froup to store positions
    particles_grp = hdf.create_group('particles/lipids/positions')
    step = 0
    while True:         
        header = f.readline()
        if not header:
            print("End Of File")
            break
        else:
            print(header)

        # get number of data rows
        no_rows = int(f.readline())
        arr = np.empty(shape=(no_rows,), dtype=gro_dt)
        for row in range(no_rows):
            fields = parse( f.readline().encode('utf-8') )
            arr[row]['col1'] = fields[0].strip()            
            arr[row]['col2'] = fields[1].strip()            
            arr[row]['col3'] = int(fields[2])
            arr[row]['col4'] = float(fields[3])
            arr[row]['col5'] = float(fields[4])
            arr[row]['col6'] = float(fields[5])
        if arr.shape[0] > 0:
            # create a dataset for THIS time step
            ds= particles_grp.create_dataset(f'dataset_{step:04}', data=arr,compression='gzip') 
            #ds= hdf.create_dataset(f'dataset_{step:04}', data=arr,compression='gzip') 
            #create attributes for this dataset / time step
            hdr_tokens = header.split()
            particles_grp['ds'] = ds
            ds.attrs['raw_header'] = header
            #ds.attrs['Generated by'] = hdr_tokens[2]
            #ds.attrs['P/L'] = hdr_tokens[4].split('=')[1]
            ds.attrs['Time'] = hdr_tokens[6]
            
        footer = f.readline()
        step += 1

我假设这是错误消息中的问题，试一试，让我知道它是否有效。

HDF5使用类似于您的文件系统的分层文件结构。假设您正在尝试创建两个同名目录(文件夹)。只能有一个相同的文件夹。因此，首先创建组或文件夹，然后将文件(数据集)放到组中。

编辑:看来您将在这里遇到更多的问题。

particles_grp['ds'] = ds

您需要为组中的数据集创建自定义名称，因为您不能有两个相同的名称。

试着做这样的事情：

particles_grp[f'dataset_{step:04}'] = ds

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/69178670

复制

相似问题

问如何在hdf5文件中的组内创建数据集？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在hdf5文件中的组内创建数据集？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在hdf5文件中的组内创建数据集？
EN