前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >《neural network and deep learning》题解——ch03 过度拟合&规范化&权重初始化

《neural network and deep learning》题解——ch03 过度拟合&规范化&权重初始化

作者头像
小爷毛毛_卓寿杰
发布2019-02-13 11:23:12
5370
发布2019-02-13 11:23:12
举报
文章被收录于专栏:Soul Joy Hub

问题一

正如上面讨论的那样,一种扩展 MNIST 训练数据的方式是用一些小的旋转。如果我们允许过大的旋转,则会出现什么状况呢?

如果我们允许过大的旋转,会使得模型不能很好的学习到数字的特征,甚至学习到错误的特征。

问题二

我们的机器学习算法在⾮常⼤的数据集上如何进行?对任何给定的算法,其实去定义一个随着训练数据规模变化的渐近的性能是一种很自然的尝试。一种简单粗暴的方法就是简单地进行上⾯图中的趋势分析,然后将图像推进到无穷大。而对此想法的反驳是曲线本⾝会给出不同的渐近性能。你能够找到拟合某些特定类别曲线的理论上的验证方法吗?如果可以,比较不同的机器学习算法的渐近性能。

待解

问题三

验证 z=∑jwjxj+bz =∑_j w_j x_j+ b 标准差为3/2−−−√\sqrt{ 3/2}。下面两点可能会有帮助:(a)独立随机变量和的方差,是每个独立随机变量方差的和;(b)方差是标准差的平方

由独立随机变量和的方差,是每个独立随机变量方差的和,可得: z=∑jwjxj+b的方差=(1n−−√)2∗0+...(1n−−√)2∗0+(1n−−√)2∗1+...+(1n−−√)2∗1+1\large \color{blue}{ z =∑_j w_j x_j+ b 的 方差 = (\frac{1}{\sqrt{n}})^2*0+...(\frac{1}{\sqrt{n}})^2*0 + (\frac{1}{\sqrt{n}})^2*1+...+ (\frac{1}{\sqrt{n}})^2*1+1} =1n∗n2+1\large \color{blue}{= \frac{1}{n}*\frac{n}{2} + 1 } =32\large \color{blue}{= \frac{3}{2} }

方差是标准差的平方,可得:

z=∑jwjxj+b的标准差=3/2−−−√\large \color{blue}{ z =∑_j w_j x_j+ b 的 标准差 = \sqrt{ 3/2}}

问题四

L2 规范化有时候会自动给我们一些类似于新的初始化方法的东西。假设我们使用旧的初始化权重的方法。考虑一个启发式的观点:(1)假设 λ 不太小,训练的第一迭代期将会几乎被权重衰减统治;(2)如果ηλ≪n ηλ ≪ n,权重会按照因⼦ exp(−ηλ/m)exp(−ηλ/m) 每 迭代期衰减;(3)假设 λ 不太大,权重衰减会在权重降到 1/n√1/ \sqrt{ n}的时候保持住,其中 n 是网络中权重的个数。论证这些条件都已经在本节给出图示的例子中满足。

待解

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017年07月16日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 问题一
  • 问题二
  • 问题三
  • 问题四
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档