假设有一个大的(10 GB) CSV文件,其中包含混合的文本/数字,那么在保持合理的内存使用的同时,创建具有相同内容的HDF5文件的最快方法是什么?
如果可能的话,我想使用h5py
模块。
在下面的玩具示例中,我发现了一种将数据写入HDF5的非常慢和非常快的方法。在10,000行左右的块中写入HDF5是不是最佳实践?或者,有没有更好的方法将大量数据写入这样的文件?
import h5py
n = 10000000
f = h5py.File('foo.h5','w')
dset = f.create_dataset('int',(n,),'i')
# this is terribly slow
for i in xrange(n):
dset[i] = i
# instantaneous
dset[...] = 42
https://stackoverflow.com/questions/5466971
复制相似问题