学习率是最重要的需要调节的参数
0.9 是个很好的默认值
一般会使用默认的选定值,即
,超参数二是 Adam 算法中的
,在这种情况下,我们知道
很重要,但是
的取值却无关紧要,如果你在网格中取点,接着你试验了
的 5 个取值,那你会发现无论
如何取值,结果基本上都是一样的.所以即使你考虑了 25 个值,但进行实验的
值只有 5 个
值,所以你似乎会更可能发现效果更好的取值.
假设你要搜索的学习率的范围在 0.0001 ~ 1 的范围中
随机取值
,从第一行可以得出
,那么
的一个区间,你可以通过
算出 a 的值即-4.在右边的值是
,
得到 b 的值是 0.
,这就是在对数轴上取值的过程.
计算指数加权平均值
,对于指数加权平均值,若
=0.9 即是取 10 天中的平均值,若
取 0.999 即是在 1000 个值中取指数加权平均值.
考虑
,所以去
则这是超参数的随机取值.
,当
接近于 1 时,
就会会对细微的变化十分敏感
,
表示在 1000 个数据中取平均
表示在 2000 个数据中取平均,很接近 1 时看似微小的改动都会带来巨大的差异!
[1]
吴恩达老师课程原地址: https://mooc.study.163.com/smartSpec/detail/1001319001.htm