首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何在hdf5文件中的组内创建数据集?

如何在hdf5文件中的组内创建数据集?
EN

Stack Overflow用户
提问于 2021-09-14 13:25:41
回答 2查看 661关注 0票数 0

我想要创建一个包含两个数据集的路径“粒子/脂质/位置”的组,例如粒子是主组,脂类是包含脂质名称的数据集,而位置将包含每个帧中脂质的位置。我尝试过这样做,但是在代码的第40行中从前面的答案码源中得到了以下错误

代码语言:javascript
运行
复制
 ValueError: Unable to create group (name already exists)
代码语言:javascript
运行
复制
import struct
import numpy as np
import h5py

csv_file = 'com'

fmtstring = '7s 8s 5s 7s 7s 7s'
fieldstruct = struct.Struct(fmtstring)
parse = fieldstruct.unpack_from

#define a np.dtype for gro array/dataset (hard-coded for now)
gro_dt = np.dtype([('col1', 'S7'), ('col2', 'S8'), ('col3', int), 
                   ('col4', float), ('col5', float), ('col6', float)])

with open(csv_file, 'r') as f, \
     h5py.File('xaa.h5', 'w') as hdf:
         
    step = 0
    while True:         
        header = f.readline()
        if not header:
            print("End Of File")
            break
        else:
            print(header)

        # get number of data rows
        no_rows = int(f.readline())
        arr = np.empty(shape=(no_rows,), dtype=gro_dt)
        for row in range(no_rows):
            fields = parse( f.readline().encode('utf-8') )
            arr[row]['col1'] = fields[0].strip()            
            arr[row]['col2'] = fields[1].strip()            
            arr[row]['col3'] = int(fields[2])
            arr[row]['col4'] = float(fields[3])
            arr[row]['col5'] = float(fields[4])
            arr[row]['col6'] = float(fields[5])
        if arr.shape[0] > 0:
            # Create a froup to store positions
            particles_grp = hdf.create_group('particles/lipids/positions')
            # create a dataset for THIS time step
            ds= particles_grp.create_dataset(f'dataset_{step:04}', data=arr,compression='gzip') 
            #ds= hdf.create_dataset(f'dataset_{step:04}', data=arr,compression='gzip') 
            #create attributes for this dataset / time step
            hdr_tokens = header.split()
            particles_grp['ds'] = ds
            ds.attrs['raw_header'] = header
            #ds.attrs['Generated by'] = hdr_tokens[2]
            #ds.attrs['P/L'] = hdr_tokens[4].split('=')[1]
            ds.attrs['Time'] = hdr_tokens[6]
            
        footer = f.readline()
        step += 1

小数据文件在这里链接,数据文件。在当前的代码中,每个帧都存储在dataset1、2...so on中。我希望这些数据集存储在粒子组中。我不太确定这是否是以后最好的方法,因为我想使用这些框架进行进一步的计算!谢谢!!

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2021-09-14 14:19:05

正如前面的答案所指出的,您尝试使用以下函数在while循环中创建相同的组:

particles_grp = hdf.create_group('particles/lipids/positions')

您在第二次调用它时会得到一个错误(b/c组已经退出)。

相反,使用此函数创建组对象:

particles_grp = hdf.require_group('particles/lipids/positions')

require_group()很聪明(而且很有用)。如果这个组不存在,它将创建它。而且,当组已经存在时,它将简单地返回组对象。

对您的代码进行更改,它将不受任何其他更改的影响。

或者,您可以将create_group()调用移动到while True:循环的上方(因此只调用一次)。

票数 1
EN

Stack Overflow用户

发布于 2021-09-14 13:34:07

您正在运行代码行:

代码语言:javascript
运行
复制
particles_grp = hdf.create_group('particles/lipids/positions')

在你的时间循环里。这意味着您要多次在hdf5文件中创建组,这是不可能的(因为名称是硬编码的)。试试这样的东西。

代码语言:javascript
运行
复制
with open(csv_file, 'r') as f, \
     h5py.File('xaa.h5', 'w') as hdf:
    # Create a froup to store positions
    particles_grp = hdf.create_group('particles/lipids/positions')
    step = 0
    while True:         
        header = f.readline()
        if not header:
            print("End Of File")
            break
        else:
            print(header)

        # get number of data rows
        no_rows = int(f.readline())
        arr = np.empty(shape=(no_rows,), dtype=gro_dt)
        for row in range(no_rows):
            fields = parse( f.readline().encode('utf-8') )
            arr[row]['col1'] = fields[0].strip()            
            arr[row]['col2'] = fields[1].strip()            
            arr[row]['col3'] = int(fields[2])
            arr[row]['col4'] = float(fields[3])
            arr[row]['col5'] = float(fields[4])
            arr[row]['col6'] = float(fields[5])
        if arr.shape[0] > 0:
            # create a dataset for THIS time step
            ds= particles_grp.create_dataset(f'dataset_{step:04}', data=arr,compression='gzip') 
            #ds= hdf.create_dataset(f'dataset_{step:04}', data=arr,compression='gzip') 
            #create attributes for this dataset / time step
            hdr_tokens = header.split()
            particles_grp['ds'] = ds
            ds.attrs['raw_header'] = header
            #ds.attrs['Generated by'] = hdr_tokens[2]
            #ds.attrs['P/L'] = hdr_tokens[4].split('=')[1]
            ds.attrs['Time'] = hdr_tokens[6]
            
        footer = f.readline()
        step += 1

我假设这是错误消息中的问题,试一试,让我知道它是否有效。

HDF5使用类似于您的文件系统的分层文件结构。假设您正在尝试创建两个同名目录(文件夹)。只能有一个相同的文件夹。因此,首先创建组或文件夹,然后将文件(数据集)放到组中。

编辑:看来您将在这里遇到更多的问题。

代码语言:javascript
运行
复制
particles_grp['ds'] = ds

您需要为组中的数据集创建自定义名称,因为您不能有两个相同的名称。

试着做这样的事情:

代码语言:javascript
运行
复制
particles_grp[f'dataset_{step:04}'] = ds
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/69178670

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档