整理并翻译自吴恩达深度学习视频: https://mooc.study.163.com/learn/2001281002?tid=2001392029#/learn/content?type=detail&id=2001702026
W[1],b[1],W[2],b[2],W[3],b[3]...W^{[1]}, b^{[1]}, W^{[2]}, b^{[2]}, W^{[3]}, b^{[3]}...W[1],b[1],W[2],b[2],W[3],b[3]...
中文 | 英文 |
---|---|
学习速率 | learning rate α\alphaα |
迭代次数 | #iterations |
隐藏层层数 | #hidden layers L |
隐藏单元数 | #hidden units n[1],n[2],...n^{[1]},n^{[2]},...n[1],n[2],... |
激活函数的选择 | choice of activation function |
除此之外,还有mometum、minibatch size、various forms of regularization parameters。
#在学术上表示numbers of,即…的数量。
超参数只是一种命名,之所以称之为超参数,是因为这些参数(hyperparameter)在某种程度上决定了最终得到的W和b参数(parameter)。超字并没有什么特别深刻的含义。
那么在训练网络时如何选择这些超参数呢 ?
你可能不得不尝试一系列可能适用于你的应用的超参数配置,不断尝试去取得最佳结果。
系统性的去尝试超参数的方法,稍后补充。
这是深度学习还需要进步的地方。
大家会开玩笑说什么佛系调参,差不多就是这个意思。