正如上面讨论的那样,一种扩展 MNIST 训练数据的方式是用一些小的旋转。如果我们允许过大的旋转,则会出现什么状况呢?
如果我们允许过大的旋转,会使得模型不能很好的学习到数字的特征,甚至学习到错误的特征。
我们的机器学习算法在⾮常⼤的数据集上如何进行?对任何给定的算法,其实去定义一个随着训练数据规模变化的渐近的性能是一种很自然的尝试。一种简单粗暴的方法就是简单地进行上⾯图中的趋势分析,然后将图像推进到无穷大。而对此想法的反驳是曲线本⾝会给出不同的渐近性能。你能够找到拟合某些特定类别曲线的理论上的验证方法吗?如果可以,比较不同的机器学习算法的渐近性能。
待解
验证 z=∑jwjxj+bz =∑_j w_j x_j+ b 标准差为3/2−−−√\sqrt{ 3/2}。下面两点可能会有帮助:(a)独立随机变量和的方差,是每个独立随机变量方差的和;(b)方差是标准差的平方
由独立随机变量和的方差,是每个独立随机变量方差的和,可得: z=∑jwjxj+b的方差=(1n−−√)2∗0+...(1n−−√)2∗0+(1n−−√)2∗1+...+(1n−−√)2∗1+1\large \color{blue}{ z =∑_j w_j x_j+ b 的 方差 = (\frac{1}{\sqrt{n}})^2*0+...(\frac{1}{\sqrt{n}})^2*0 + (\frac{1}{\sqrt{n}})^2*1+...+ (\frac{1}{\sqrt{n}})^2*1+1} =1n∗n2+1\large \color{blue}{= \frac{1}{n}*\frac{n}{2} + 1 } =32\large \color{blue}{= \frac{3}{2} }
方差是标准差的平方,可得:
z=∑jwjxj+b的标准差=3/2−−−√\large \color{blue}{ z =∑_j w_j x_j+ b 的 标准差 = \sqrt{ 3/2}}
L2 规范化有时候会自动给我们一些类似于新的初始化方法的东西。假设我们使用旧的初始化权重的方法。考虑一个启发式的观点:(1)假设 λ 不太小,训练的第一迭代期将会几乎被权重衰减统治;(2)如果ηλ≪n ηλ ≪ n,权重会按照因⼦ exp(−ηλ/m)exp(−ηλ/m) 每 迭代期衰减;(3)假设 λ 不太大,权重衰减会在权重降到 1/n√1/ \sqrt{ n}的时候保持住,其中 n 是网络中权重的个数。论证这些条件都已经在本节给出图示的例子中满足。
待解