使用scipy.io.savemat将等大小ndarrays的numpy对象数组存储到.mat文件中

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (1)
  • 关注 (0)
  • 查看 (1356)

我正在尝试使用python创建.mat数据文件。matlab代码期望数据具有特定格式,其中非均匀大小的二维ndarray作为对象存储在列向量中。因此,在我的情况下,将有k个numpy形状的数组(m_​​i,n) - 每个数组具有不同的m_i - 存储在具有dtype=object形状(k,1)的numpy数组中。然后我将此对象数组添加到字典并将其传递给scipy.io.savemat()

只要m_i确实不同,这就可以正常工作。如果所有k个数组恰好具有相同的行数m_i,则行为变得奇怪。首先,它需要非常明确地分配给已经初始化为最终大小k的ntype = object的numpy数组,否则numpy只是创建一个三维数组。但即使我在python中使用了正确的格式并将其存储到.mat文件中savemat,在matlab格式的转换中也存在某种问题。

当我使用时从.mat文件重新加载数据时scipy.io.loadmat,我发现我仍然有一个形状(k,1)的对象数组,它仍然具有形状元素(m,n)。但是,每个元素不再是int或float,而是一个numpy数组形状(1,1),必须进一步索引以访问包含的int或float。所以对象向量的一个单独的元素应该是一个形状(2,4)的numpy数组看起来像这样:

[array([[array([[0.82374894]]), array([[0.50730055]]),
        array([[0.36721625]]), array([[0.45036349]])],
       [array([[0.26119276]]), array([[0.16843872]]),
        array([[0.28649524]]), array([[0.64239569]])]], dtype=object)]

这也为我正在尝试构建我的数据文件的matlab代码带来了问题。它对于具有不同形状的对象数组运行良好,但是当存在包含相同形状的数组的数组时会中断。

我知道这是一个相当模糊和可能不可避免的问题,但我想我会看到是否有其他人遇到过它并找到了解决办法。谢谢。

提问于
用户回答回答于

我不太清楚这个问题。让我试着重新创建你的案例:

In [58]: from scipy.io import loadmat, savemat                               
In [59]: A = np.empty((2,1), object)     
In [61]: A[0,0]=np.arange(4).reshape(2,2)                                    
In [62]: A[1,0]=np.arange(6).reshape(3,2)                                    
In [63]: A                                                                   
Out[63]: 
array([[array([[0, 1],
       [2, 3]])],
       [array([[0, 1],
       [2, 3],
       [4, 5]])]], dtype=object)
In [64]: B=A[[0,0],:]                                                        
In [65]: B                                                                   
Out[65]: 
array([[array([[0, 1],
       [2, 3]])],
       [array([[0, 1],
       [2, 3]])]], dtype=object)

正如我今天早些时候解释的那样,从匹配大小的数组创建对象dtype数组需要特殊处理。 np.array(...)试图创建一个更高维度的数组。 https://stackoverflow.com/a/56243305/901925

保存:

In [66]: savemat('foo.mat', {'A':A, 'B':B})                                  

加载:

In [74]: loadmat('foo.mat')                                                  
Out[74]: 
{'__header__': b'MATLAB 5.0 MAT-file Platform: posix, Created on: Tue May 21 11:20:42 2019',
 '__version__': '1.0',
 '__globals__': [],
 'A': array([[array([[0, 1],
        [2, 3]])],
        [array([[0, 1],
        [2, 3],
        [4, 5]])]], dtype=object),
 'B': array([[array([[0, 1],
        [2, 3]])],
        [array([[0, 1],
        [2, 3]])]], dtype=object)}
In [75]: _74['A'][1,0]                                                       
Out[75]: 
array([[0, 1],
       [2, 3],
       [4, 5]])

您的问题案例看起来像是包含数字的对象dtype数组:

In [89]: C = np.arange(4).reshape(2,2).astype(object)                        
In [90]: C                                                                   
Out[90]: 
array([[0, 1],
       [2, 3]], dtype=object)
In [91]: savemat('foo1.mat', {'C': C})                                       
In [92]: loadmat('foo1.mat')                                                 
Out[92]: 
{'__header__': b'MATLAB 5.0 MAT-file Platform: posix, Created on: Tue May 21 11:39:31 2019',
 '__version__': '1.0',
 '__globals__': [],
 'C': array([[array([[0]]), array([[1]])],
        [array([[2]]), array([[3]])]], dtype=object)}

显然savemat已将整数对象转换为2d MATLAB兼容数组。在MATLAB中,一切,甚至是标量,至少是2d。

===

在Octave中,对象dtype数组都生成单元格,而2d数字数组生成矩阵:

>> load foo.mat
>> A
A =
{
  [1,1] =

    0  1
    2  3

  [2,1] =

    0  1
    2  3
    4  5

}
>> B
B =
{
  [1,1] =

    0  1
    2  3

  [2,1] =

    0  1
    2  3

}
>> load foo1.mat
>> C
C =
{
  [1,1] = 0
  [2,1] = 2
  [1,2] = 1
  [2,2] = 3
}

Python:使用h5py和NumPy从MATLAB .mat文件中读取str

是一个相对较新的SO,表明Octave HDF5和MATLAB之间存在差异。

扫码关注云+社区

领取腾讯云代金券