我正在研究以下文件中提出的体系结构:基于图像序列识别的端到端可训练神经网络及其在场景文本识别中的应用。
在模型的体系结构中,提出了一个MaxPooling窗口:1×2,s:2层。我不确定这个层输出的大小。
如果我有一个大小的输入(32x8),那么输出将是:
(32-1)/2 +1= 16.5,<-这部分对我来说没有意义
(8-2)/2 +1=4
*忽略深度和批次大小
发布于 2020-07-24 09:00:05
根据这篇论文,"s“可能代表着一排排的大步,而”栏中的步幅“等于1。
https://datascience.stackexchange.com/questions/61656
复制相似问题