我想要创建一个包含两个数据集的路径“粒子/脂质/位置”的组,例如粒子是主组,脂类是包含脂质名称的数据集,而位置将包含每个帧中脂质的位置。我尝试过这样做,但是在代码的第40行中从前面的答案码源中得到了以下错误
ValueError: Unable to create group (name already exists)
import struct
import numpy as np
import h5py
csv_file = 'com'
fmtstring = '7s 8s 5s 7s 7s 7s'
fieldstruct = struct.Struct(fmtstring)
parse = fieldstruct.unpack_from
#define a np.dtype for gro array/dataset (hard-coded for now)
gro_dt = np.dtype([('col1', 'S7'), ('col2', 'S8'), ('col3', int),
('col4', float), ('col5', float), ('col6', float)])
with open(csv_file, 'r') as f, \
h5py.File('xaa.h5', 'w') as hdf:
step = 0
while True:
header = f.readline()
if not header:
print("End Of File")
break
else:
print(header)
# get number of data rows
no_rows = int(f.readline())
arr = np.empty(shape=(no_rows,), dtype=gro_dt)
for row in range(no_rows):
fields = parse( f.readline().encode('utf-8') )
arr[row]['col1'] = fields[0].strip()
arr[row]['col2'] = fields[1].strip()
arr[row]['col3'] = int(fields[2])
arr[row]['col4'] = float(fields[3])
arr[row]['col5'] = float(fields[4])
arr[row]['col6'] = float(fields[5])
if arr.shape[0] > 0:
# Create a froup to store positions
particles_grp = hdf.create_group('particles/lipids/positions')
# create a dataset for THIS time step
ds= particles_grp.create_dataset(f'dataset_{step:04}', data=arr,compression='gzip')
#ds= hdf.create_dataset(f'dataset_{step:04}', data=arr,compression='gzip')
#create attributes for this dataset / time step
hdr_tokens = header.split()
particles_grp['ds'] = ds
ds.attrs['raw_header'] = header
#ds.attrs['Generated by'] = hdr_tokens[2]
#ds.attrs['P/L'] = hdr_tokens[4].split('=')[1]
ds.attrs['Time'] = hdr_tokens[6]
footer = f.readline()
step += 1
小数据文件在这里链接,数据文件。在当前的代码中,每个帧都存储在dataset1、2...so on中。我希望这些数据集存储在粒子组中。我不太确定这是否是以后最好的方法,因为我想使用这些框架进行进一步的计算!谢谢!!
发布于 2021-09-14 14:19:05
正如前面的答案所指出的,您尝试使用以下函数在while循环中创建相同的组:
particles_grp = hdf.create_group('particles/lipids/positions')
您在第二次调用它时会得到一个错误(b/c组已经退出)。
相反,使用此函数创建组对象:
particles_grp = hdf.require_group('particles/lipids/positions')
require_group()
很聪明(而且很有用)。如果这个组不存在,它将创建它。而且,当组已经存在时,它将简单地返回组对象。
对您的代码进行更改,它将不受任何其他更改的影响。
或者,您可以将create_group()
调用移动到while True:
循环的上方(因此只调用一次)。
发布于 2021-09-14 13:34:07
您正在运行代码行:
particles_grp = hdf.create_group('particles/lipids/positions')
在你的时间循环里。这意味着您要多次在hdf5文件中创建组,这是不可能的(因为名称是硬编码的)。试试这样的东西。
with open(csv_file, 'r') as f, \
h5py.File('xaa.h5', 'w') as hdf:
# Create a froup to store positions
particles_grp = hdf.create_group('particles/lipids/positions')
step = 0
while True:
header = f.readline()
if not header:
print("End Of File")
break
else:
print(header)
# get number of data rows
no_rows = int(f.readline())
arr = np.empty(shape=(no_rows,), dtype=gro_dt)
for row in range(no_rows):
fields = parse( f.readline().encode('utf-8') )
arr[row]['col1'] = fields[0].strip()
arr[row]['col2'] = fields[1].strip()
arr[row]['col3'] = int(fields[2])
arr[row]['col4'] = float(fields[3])
arr[row]['col5'] = float(fields[4])
arr[row]['col6'] = float(fields[5])
if arr.shape[0] > 0:
# create a dataset for THIS time step
ds= particles_grp.create_dataset(f'dataset_{step:04}', data=arr,compression='gzip')
#ds= hdf.create_dataset(f'dataset_{step:04}', data=arr,compression='gzip')
#create attributes for this dataset / time step
hdr_tokens = header.split()
particles_grp['ds'] = ds
ds.attrs['raw_header'] = header
#ds.attrs['Generated by'] = hdr_tokens[2]
#ds.attrs['P/L'] = hdr_tokens[4].split('=')[1]
ds.attrs['Time'] = hdr_tokens[6]
footer = f.readline()
step += 1
我假设这是错误消息中的问题,试一试,让我知道它是否有效。
HDF5使用类似于您的文件系统的分层文件结构。假设您正在尝试创建两个同名目录(文件夹)。只能有一个相同的文件夹。因此,首先创建组或文件夹,然后将文件(数据集)放到组中。
编辑:看来您将在这里遇到更多的问题。
particles_grp['ds'] = ds
您需要为组中的数据集创建自定义名称,因为您不能有两个相同的名称。
试着做这样的事情:
particles_grp[f'dataset_{step:04}'] = ds
https://stackoverflow.com/questions/69178670
复制相似问题