CNN之后的LSTM如何输入和什么尺寸(输入大小)？

LSTM（Long Short-Term Memory）是一种常用的循环神经网络（RNN）模型，用于处理序列数据。在使用LSTM之前，通常需要将序列数据转换为适合模型输入的格式。

对于CNN之后的LSTM，输入的尺寸取决于CNN模型的输出。通常情况下，CNN模型会提取出一系列的特征图（feature maps），每个特征图对应一个特定的特征。这些特征图的尺寸通常是固定的，例如宽度为W，高度为H，通道数为C。

在将特征图输入到LSTM之前，需要将其转换为LSTM可以接受的输入格式。一种常见的做法是将特征图展平为一个向量，即将其三维的形状（W，H，C）转换为二维的形状（W*H，C）。这样得到的向量就可以作为LSTM的输入。

另外，如果序列数据具有时间维度，例如视频或音频数据，还可以将时间作为额外的维度。在这种情况下，可以将特征图的形状扩展为（T，W，H，C），其中T表示时间步数。然后，将每个时间步的特征图展平为向量，得到形状为（T，W*H，C）的输入。

总结起来，CNN之后的LSTM的输入尺寸取决于CNN模型输出的特征图的形状。可以将特征图展平为向量作为LSTM的输入，或者在具有时间维度的序列数据中，将特征图的形状扩展为（T，W，H，C）并展平为向量。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云