我知道mnist数据集中的手写数字图像是28×28,但是为什么LeNet5中的输入是32×32?
发布于 2015-02-15 12:22:19
您的问题在原纸中得到了回答:
卷积步骤的输入总是小于前一层的特征映射(对于第一层--输入--也是如此):
图层C1是一个有6个特征映射的卷积层。每个特征映射中的每个单元都连接到输入中的一个5x5邻域。特征映射的大小是28x28,这样可以防止输入端的连接从边界上掉下来。
这意味着使用32x32输入上的5x5邻域,您将得到大小为28x28的6个功能地图,因为有些像素在图像边界上是不使用的(这些数字总是有一个余数)。
当然,对于第一层,他们可以有一个例外。他们仍然使用32x32图像的原因是:
输入是一个32x32像素的图像。这明显大于数据库中最大的字符(最多以28x28字段为中心的20x20像素)。这是因为它是可取的,潜在的独特特征,如笔划端点或角可以出现在接受场的中心,最高水平的特征检测器。
https://stackoverflow.com/questions/28525436
复制相似问题