梯度下降法,mini-batch 数量不大,大概 64 或者 128 个样本,但是在迭代过程中会有噪音,下降朝向这里的最小值,但是不会精确的收敛,所以你的算法最后在附近摆动....但如果能慢慢减少学习率
的话,在初期的时候,你的学习率还比较大,能够学习的很快,但是随着
变小,你的步伐也会变慢变小.所以最后的曲线在最小值附近的一小块区域里摆动.所以慢慢减少
的本质在于在学习初期...其他学习率是衰减公式
指数衰减
Tensorflow 实现学习率衰减
自适应学习率衰减
tf.train.exponential_decay(learning_rate, global_step,...decay_steps, decay_rate, staircase=False, name=None)
退化学习率,衰减学习率,将指数衰减应用于学习速率。...None)
将反时限衰减应用到初始学习率。