由于数据量大,而且自动保存频繁,所以我决定使用matfile对象将保存的方法从标准的save()函数改为部分保存:
https://www.mathworks.com/help/matlab/ref/matfile.html
我之所以做此更改,是因为使用save()将覆盖所有内容,即使对结构做了轻微的更改,也大大减慢了程序的运行速度。但是,我注意到,每次调用matfile时,使用matfile保存的时间呈线性增长,经过一些调试后,我注意到这是由于文件大小每次都在增加,即使数据被相同的数据覆盖。下面是一个示例:
% Save MAT file with string variable and cell variable
stringvar = 'hello'
cellvar = {'world'}
save('test.mat', 'stringvar', 'cellvar', '-v7.3')
m = matfile('test.mat', 'Writable', true);
% Get number of bytes of MAT file
f = dir('test.mat'); f.bytes
% Output: 3928 - inital size
% Overwrite stringvar with same data.
m.stringvar = 'hello';
f = dir('test.mat'); f.bytes
% Output: 3928 - same as before
% Overwrite cellvar with same data.
m.cellvar = {'world'};
f = dir('test.mat'); f.bytes
% Output: 4544 - size increased当数据相同时,我不明白为什么字节数会增加。它增加了一个非常明显的时间延迟,每一次保存都会增长,因此它违背了部分保存的目的。知道这是怎么回事吗?在这方面的帮助将是非常感谢的!
发布于 2017-01-07 21:39:50
这是由于在7.3 (HDF5) mat文件中存储(和更新)单元格数组和更复杂的数据类型的方式。由于单元格数组包含混合数据类型,所以MATLAB将单元数组变量存储在根(/) HDF5群中作为一系列参考文献存储,其中指向包含每个单元格数据的/#refs#组,该组包含每个单元格的数据。
每当您试图覆盖单元格数组值时,/#refs# HDF5群将被附加到新的数据集中,新数据集表示单元格数组元素数据,并更新/ 组中的驱回以指向这些新数据。不移除/#refs#中的旧的(现在未使用的)/#refs#。这是HDF5文件的设计行为,因为从文件中删除数据将需要在删除区域之后移动所有文件内容,以“缩小差距”,这将导致(可能会造成巨大的)性能损失**。
我们可以使用h5disp查看MATLAB正在创建的文件的内容,以说明这一点。下面我将使用一个缩写的h5disp输出,这样它就更容易读了:
stringvar = 'hello';
cellvar = {'world'};
save('test.mat', 'stringvar', 'cellvar', '-v7.3')
h5disp('test.mat')
% HDF5 test.mat
% Group '/'
% Dataset 'cellvar' <--- YOUR CELL ARRAY
% Size: 1x1 <--- HERE IS ITS SIZE
% Datatype: H5T_REFERENCE <--- THE ACTUAL DATA LIVES IN /#REFS#
% Attributes:
% 'MATLAB_class': 'cell'
% Dataset 'stringvar' <--- YOUR STRING
% Size: 1x5 <--- HAS 5 CHARACTERS
% Datatype: H5T_STD_U16LE (uint16)
% Attributes:
% 'MATLAB_class': 'char'
% 'MATLAB_int_decode': 2
% Group '/#refs#' <--- WHERE THE DATA FOR THE CELL ARRAY LIVES
% Attributes:
% 'H5PATH': '/#refs#'
% Dataset 'a'
% Size: 2
% Datatype: H5T_STD_U64LE (uint64)
% Attributes:
% 'MATLAB_empty': 1
% 'MATLAB_class': 'canonical empty'
% Dataset 'b' <--- THE CELL ARRAY DATA
% Size: 1x5 <--- CONTAINS A 5-CHAR STRING
% Datatype: H5T_STD_U16LE (uint16)
% Attributes:
% 'MATLAB_class': 'char'
% 'MATLAB_int_decode': 2
% 'H5PATH': '/#refs#/b'
%% Now we want to replace the string with a 6-character string
m.stringvar = 'hellos';
h5disp('test.mat')
% HDF5 test.mat
% Group '/'
% Dataset 'cellvar' <--- THIS REMAINS UNCHANGED
% Size: 1x1
% Datatype: H5T_REFERENCE
% Attributes:
% 'MATLAB_class': 'cell'
% Dataset 'stringvar'
% Size: 1x6 <--- JUST INCREASED THE LENGTH OF THIS TO 6
% Datatype: H5T_STD_U16LE (uint16)
% Attributes:
% 'MATLAB_class': 'char'
% 'MATLAB_int_decode': 2
% Group '/#refs#'
% Attributes:
% 'H5PATH': '/#refs#'
% Dataset 'a' <--- NONE OF THIS HAS CHANGED
% Size: 2
% Datatype: H5T_STD_U64LE (uint64)
% Attributes:
% 'MATLAB_empty': 1
% 'MATLAB_class': 'canonical empty'
% Dataset 'b'
% Size: 1x5
% Datatype: H5T_STD_U16LE (uint16)
% Attributes:
% 'MATLAB_class': 'char'
% 'MATLAB_int_decode': 2
% 'H5PATH': '/#refs#/b'
%% Now change the cell (and replace with a 6-character string)
m.cellvar = {'worlds'};
% HDF5 test.mat
% Group '/'
% Dataset 'cellvar' <--- HERE IS YOUR CELL ARRAY AGAIN
% Size: 1x1
% Datatype: H5T_REFERENCE <--- STILL A REFERENCE
% Attributes:
% 'MATLAB_class': 'cell'
% Dataset 'stringvar' <--- STRING VARIABLE UNCHANGED
% Size: 1x6
% Datatype: H5T_STD_U16LE (uint16)
% Attributes:
% 'MATLAB_class': 'char'
% 'MATLAB_int_decode': 2
% Group '/#refs#'
% Attributes:
% 'H5PATH': '/#refs#'
% Dataset 'a' <--- THE OLD DATA IS STILL HERE
% Size: 2
% Datatype: H5T_STD_U64LE (uint64)
% Attributes:
% 'MATLAB_empty': 1
% 'MATLAB_class': 'canonical empty'
% Dataset 'b' <--- THE OLD DATA IS STILL HERE
% Size: 1x5
% Datatype: H5T_STD_U16LE (uint16)
% Attributes:
% 'MATLAB_class': 'char'
% 'MATLAB_int_decode': 2
% 'H5PATH': '/#refs#/b'
% Dataset 'c' <--- THE NEW DATA IS ALSO HERE
% Size: 2
% Datatype: H5T_STD_U64LE (uint64)
% Attributes:
% 'MATLAB_empty': 1
% 'MATLAB_class': 'canonical empty'
% Dataset 'd' <--- THE NEW DATA IS ALSO HERE
% Size: 1x6 <--- NOW WITH 6 CHARACTERS
% Datatype: H5T_STD_U16LE (uint16)
% Attributes:
% 'MATLAB_class': 'char'
% 'MATLAB_int_decode': 2
% 'H5PATH': '/#refs#/d'正是这种不断增加的#refs#组大小导致了您的文件大小的增加。由于#refs#包含实际数据,所以每次保存文件时,您要替换的单元格数组元素中的所有数据都将被复制。
至于为什么Mathworks选择使用HDF5来处理7.3MAT文件,尽管这似乎是一个很大的限制,但7.3文件的动机似乎是为了帮助访问文件中的数据,而不是为了优化文件大小。
一个可能的解决办法是使用7.0格式,这是一种非HDF5 5格式,并且在修改单元格数组变量时文件大小不会增加。7.0vs7.3唯一真正的缺点是7.0文件中的变量的。另一个好处是,对于复杂数据,7.0 .mat文件读写速度通常更快与7.3个HDF5文件相比。
% Helper function to tell us the size
printsize = @(filename)disp(getfield(dir(filename), 'bytes'));
stringvar = 'hello'
cellvar = {'world'}
% Save as 7.0 version
save('test.mat', 'stringvar', 'cellvar', '-v7')
printsize('test.mat')
% 256
m = matfile('test.mat', 'Writable', true);
m.stringvar = 'hello';
printsize('test.mat')
% 256
m.cellvar = {'world'};
printsize('test.mat')
% 256如果仍然希望使用7.3文件,则可能值得将单元格数组保存为临时变量,在函数中修改该变量,并且很少将其写入文件以防止不必要的写入。
tmp = m.cellvar;
% Make many modifications
tmp{1} = 'hello';
tmp{2} = 'world';
tmp{1} = 'Just kidding!';
% Write once after all changes have been made
m.cellvar = tmp;**通常您可以使用
h5repack来回收文件中未使用的空间;但是,MATLAB实际上并不删除/#refs#中的数据,因此h5repack没有任何效果。根据我收集的信息,您必须自己删除数据,然后使用h5repack释放未使用的空间。 fid = H5F.open('test2.mat','H5F_ACC_RDWR','H5P_DEFAULT');%我对这些名称进行了硬编码,例如H5L.delete(fid,'/#refs#/a','H5P_DEFAULT') H5L.delete(fid,'/#refs#/b','H5P_DEFAULT') H5F.close(fid);system('h5repack test.mat test.repacked.mat');
https://stackoverflow.com/questions/41526334
复制相似问题