# 【直观梳理深度学习关键概念】优化算法、调参基本思路、正则化方式等

【新智元导读】深度学习论文众多，而理解的前提是对基础概念的掌握。本文旨在直观系统地梳理深度学习各领域常见概念与基本思想，使读者对深度学习的重要概念与思想有一直观理解，从而降低后续理解论文及实际应用的难度。

Xavier初始化 从高斯分布或均匀分布中对权值进行采样，使得权值的方差是1/n，其中n是输入神经元的个数。该推导假设激活函数是线性的。

He初始化/MSRA初始化 从高斯分布或均匀分布中对权值进行采样，使得权值的方差是2/n。该推导假设激活函数是ReLU。因为ReLU会将小于0的神经元置零，大致上会使一半的神经元置零，所以为了弥补丢失的这部分信息，方差要乘以2。

L2正则化 L2正则化倾向于使网络的权值接近0。这会使前一层神经元对后一层神经元的影响降低，使网络变得简单，降低网络的有效大小，降低网络的拟合能力。L2正则化实质上是对权值做线性衰减，所以L2正则化也被称为权值衰减（weight decay）。

import random

learning_rate = 10 ** random.uniform(-5, -1) # From 1e-5 to 1e-1

weight_decay = 10 ** random.uniform(-7, -1) # From 1e-7 to 1e-1

momentum = 1 - 10 ** random.uniform(-3, -1) # From 0.9 to 0.999

