吴恩达深度学习笔记 4.1~4.8 深层神经网络

之前一章讲了 浅层神经网络,这一章讲的是深层神经网络

深层神经网络与浅层神经网络的区别是:隐藏层比浅层神经网络多,从命名规则上来说,有1,2,5个隐藏层的神经网络可以称为1 hidden layer,2 hidden layers,5 hidden layers

深层神经网络中的正向传播与之前举例的浅层神经网络一样,只是层数变得更多了,如下所示:

对于每一层的正向传播我们可以用一个公式表示:

其中L表示层数,g表示激活函数,其中所涉及到的Z,W,A,b的维度为:

其中n[l]表示第l层的隐藏单元个数,m表示样本数

为什么要使用深层神经网络,以人脸识别与语音识别为例:

 假设有一个人脸识别为4层的神经网络,神经网络第一层所做的事就是从原始图片中提取出人脸的轮廓与边缘,即边缘检测。这样每个神经元得到的是一些边缘信息。神经网络第二层所做的事情就是将前一层的边缘进行组合,组合成人脸一些局部特征,比如眼睛、鼻子、嘴巴等。再往后面,就将这些局部特征组合起来,融合成人脸的模样。可以看出,随着层数由浅到深,神经网络提取的特征也是从边缘到局部特征到整体,由简单到复杂。可见,如果隐藏层足够多,那么能够提取的特征就越丰富、越复杂,模型的准确率就会越高。

语音识别模型也是这个道理。浅层的神经元能够检测一些简单的音调,然后较深的神经元能够检测出基本的音素,更深的神经元就能够检测出单词信息。如果网络够深,还能对短语、句子进行检测。记住一点,神经网络从左到右,神经元提取的特征从简单到复杂。特征复杂度与神经网络层数成正相关。特征越来越复杂,功能也越来越强大。

除了从提取特征复杂度的角度来说明深层网络的优势之外,深层网络还有另外一个优点,就是能够减少神经元个数,从而减少计算量,以下面这个例子为例:

要求使用电路理论计算逻辑输出:

其中,⊕ 表示异或操作。如果使用深层神经网络,那么神经网络有log2(n)层,隐藏神经单元的总个数为

如果使用浅层神经网络,那么隐藏神经单元的个数会呈指数形式增加,为2^(n-1)个 (这里不懂为什么.......==)

Building blocks of deep neural networks

构建深层神经网络块,先来看他的流程图:

正向传播过程:

输入:a [l−1]  

输出:a [l] 

参数:W [l] ,b [l]  

缓存变量:z [l]  

反向传播过程中:

输入:da [l]  

输出:da [l−1] ,dW [l] ,db [l]  

参数:W [l] ,b [l]  

正向传播和反向传播的流程图:

关于深层网络中的正向传播与反向传播,如下:

下面开始讲参数和超参数:

Parameters vs Hyperparameters

 参数和超参数如下所示:

为什么叫超参数(Hyperparameter),因为它们决定了参数W [l]  和b [l] 的值

超参数的设置:

设置最优的超参数是一个比较困难的、需要经验知识的问题。通常的做法是选择超参数一定范围内的值,分别代入神经网络进行训练,测试cost function随着迭代次数增加的变化,根据结果选择cost function最小时对应的超参数值。这类似于validation的方法。

 神经网络与人脑的关系:

神经网络实际上可以分成两个部分:正向传播过程和反向传播过程。 

人脑神经元可分为树突、细胞体、轴突三部分。树突接收外界电刺激信号(类比神经网络中神经元输入),传递给细胞体进行处理(类比神经网络中神经元激活函数运算),最后由轴突传递给下一个神经元(类比神经网络中神经元输出)。

人脑神经元的结构和处理方式要复杂的多,神经网络模型只是非常简化的模型。人脑如何进行学习?是否也是通过反向传播和梯度下降算法现在还不清楚,可能会更加复杂

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | FAIR提出用聚类方法结合卷积网络,实现无监督端到端图像分类

预训练的卷积神经网络,或称卷积网络,已经成为大多数计算机视觉应用的基础构建模块 [1,2,3,4]。它们能提取极好的通用特征,用来提高在有限数据上学习的模型的泛...

21410
来自专栏专知

【论文分享】中科院自动化所多媒体计算与图形学团队NIPS 2017论文提出平均Top-K损失函数,专注于解决复杂样本

【导读】损失函数的设计一直是机器学习和模式识别中的核心问题。目前中国科学院自动化研究所和美国纽约州立大学奥尔巴尼分校合作提出了一种新的聚合损失函数,即平均 ? ...

41250
来自专栏AI研习社

新手必看的十种机器学习算法

AI 研习社按:在神经网络的成功的带动下,越来越多的研究人员和开发人员都开始重新审视机器学习,开始尝试用某些机器学习方法自动解决可以轻松采集数据的问题。然而,在...

391100
来自专栏AI科技大本营的专栏

深度学习最新方法:随机加权平均,击败了当前最先进的Snapshot Ensembling

【AI 科技大本营导读】本文,我们将讨论近期两篇有意思的论文,论文的大致思路是通过一种集成方式来提高任意给定的神经网络性能。这两篇论文分别是:

30230
来自专栏目标检测和深度学习

深度学习最新方法:Snapshot Ensembling以及OUT!随机加权平均才是未来!!!

49920
来自专栏SIGAI学习与实践平台

机器学习中的目标函数总结

几乎所有的机器学习算法最后都归结为求解最优化问题,以达到我们想让算法达到的目标。为了完成某一目标,需要构造出一个“目标函数”来,然后让该函数取极大值或极小值,从...

84910
来自专栏大数据挖掘DT机器学习

一种面向高维数据的集成聚类算法

一种面向高维数据的集成聚类算法 聚类集成已经成为机器学习的研究热点,它对原始数据集的多个聚类结果进行学习和集成,得到一个能较好地反映数据集内在结构的数据划分。...

58570
来自专栏IT派

机器学习面试题目总结

如果你觉得好的话,不妨分享到朋友圈。 1.机器学习中特征的理解 def:特征选择和降维 特征选择:原有特征选择出子集,不改变原来的特征空间 降维:将原有的特征...

46050
来自专栏null的专栏

可扩展机器学习——概述

注:这是一份学习笔记,记录的是参考文献中的可扩展机器学习的一些内容,英文的PPT可见参考文献的链接。这个只是自己的学习笔记,对原来教程中的内容进行了梳理,有些图...

34960
来自专栏计算机视觉战队

每日一学——神经网络(下)

神经网络结构 灵活地组织层 将神经网络算法以神经元的形式图形化。神经网络被建模成神经元的集合,神经元之间以无环图的形式进行连接。也就是说,一些神经元的输出是另一...

35470

扫码关注云+社区

领取腾讯云代金券