我得到并得到了输出(4,32,32),我把它传递给线性层( LSTM,num_classes=1的隐藏大小),它给我一个输出形状(4,32,1)。我正试图为我的人工智能助理解决一个唤醒词模型。我有两个类别要预测。0不是唤醒,1是唤醒AI。我的批号是32。但输出为(4,32,1)。它不是应该是32,1或类似的东西,所以我会知道有一个预测1音频mfcc?
发布于 2022-03-22 04:29:57
不完全是。您需要将数据重塑为(32,1)或(1,32),这样才能使线性层工作。您可以通过使用torch.unsqueeze()
或甚至直接使用torch.view()
添加维度来实现这一点。如果您使用解压缩功能,新的形状应该是(32,1)。如果使用视图函数,则新形状应为(1,32)。
https://stackoverflow.com/questions/71566905
复制相似问题