带有小批的随机梯度下降算法通常以小批的大小或计数作为参数。
现在我想知道的是,所有的迷你批次都需要完全相同的大小吗?
例如,来自MNIST的培训数据(60k培训图像)和一个小批量大小为70。
如果我们是在一个简单的循环中,就会产生857 mini-batches of size 70 (as specified) and one mini-batch of size 10.。
现在,(使用这种方法)一个迷你批将比其他小批更小(最坏的情况是这里的小批数为1),这是否重要?这会不会强烈影响我们的网络在几乎所有的培训过程中学习到的权重和偏见?
发布于 2016-06-06 21:46:22
不,小批次不一定要一样大小。由于效率原因,它们通常是恒定大小的(您不必重新分配内存/调整大小张量)。实际上,您甚至可以在每次迭代中对批处理的大小进行抽样。
但是,批处理的大小使有所不同。很难说哪一个是最好的,但使用较小/较大的批处理大小会导致不同的解决方案(总是不同的收敛速度)。这是处理更多的随机运动(小批量)和平滑更新(良好的梯度估计)的效果。特别是-对一个具有一定尺寸分布的批次进行随机大小处理,可以同时使用这两种效应(但拟合这种分布所花费的时间可能不值得)。
https://stackoverflow.com/questions/37666271
复制相似问题