吴恩达深度学习笔记 4.1~4.8 深层神经网络

之前一章讲了 浅层神经网络,这一章讲的是深层神经网络

深层神经网络与浅层神经网络的区别是:隐藏层比浅层神经网络多,从命名规则上来说,有1,2,5个隐藏层的神经网络可以称为1 hidden layer,2 hidden layers,5 hidden layers

深层神经网络中的正向传播与之前举例的浅层神经网络一样,只是层数变得更多了,如下所示:

对于每一层的正向传播我们可以用一个公式表示:

其中L表示层数,g表示激活函数,其中所涉及到的Z,W,A,b的维度为:

其中n[l]表示第l层的隐藏单元个数,m表示样本数

为什么要使用深层神经网络,以人脸识别与语音识别为例:

 假设有一个人脸识别为4层的神经网络,神经网络第一层所做的事就是从原始图片中提取出人脸的轮廓与边缘,即边缘检测。这样每个神经元得到的是一些边缘信息。神经网络第二层所做的事情就是将前一层的边缘进行组合,组合成人脸一些局部特征,比如眼睛、鼻子、嘴巴等。再往后面,就将这些局部特征组合起来,融合成人脸的模样。可以看出,随着层数由浅到深,神经网络提取的特征也是从边缘到局部特征到整体,由简单到复杂。可见,如果隐藏层足够多,那么能够提取的特征就越丰富、越复杂,模型的准确率就会越高。

语音识别模型也是这个道理。浅层的神经元能够检测一些简单的音调,然后较深的神经元能够检测出基本的音素,更深的神经元就能够检测出单词信息。如果网络够深,还能对短语、句子进行检测。记住一点,神经网络从左到右,神经元提取的特征从简单到复杂。特征复杂度与神经网络层数成正相关。特征越来越复杂,功能也越来越强大。

除了从提取特征复杂度的角度来说明深层网络的优势之外,深层网络还有另外一个优点,就是能够减少神经元个数,从而减少计算量,以下面这个例子为例:

要求使用电路理论计算逻辑输出:

其中,⊕ 表示异或操作。如果使用深层神经网络,那么神经网络有log2(n)层,隐藏神经单元的总个数为

如果使用浅层神经网络,那么隐藏神经单元的个数会呈指数形式增加,为2^(n-1)个 (这里不懂为什么.......==)

Building blocks of deep neural networks

构建深层神经网络块,先来看他的流程图:

正向传播过程:

输入:a [l−1]  

输出:a [l] 

参数:W [l] ,b [l]  

缓存变量:z [l]  

反向传播过程中:

输入:da [l]  

输出:da [l−1] ,dW [l] ,db [l]  

参数:W [l] ,b [l]  

正向传播和反向传播的流程图:

关于深层网络中的正向传播与反向传播,如下:

下面开始讲参数和超参数:

Parameters vs Hyperparameters

 参数和超参数如下所示:

为什么叫超参数(Hyperparameter),因为它们决定了参数W [l]  和b [l] 的值

超参数的设置:

设置最优的超参数是一个比较困难的、需要经验知识的问题。通常的做法是选择超参数一定范围内的值,分别代入神经网络进行训练,测试cost function随着迭代次数增加的变化,根据结果选择cost function最小时对应的超参数值。这类似于validation的方法。

 神经网络与人脑的关系:

神经网络实际上可以分成两个部分:正向传播过程和反向传播过程。 

人脑神经元可分为树突、细胞体、轴突三部分。树突接收外界电刺激信号(类比神经网络中神经元输入),传递给细胞体进行处理(类比神经网络中神经元激活函数运算),最后由轴突传递给下一个神经元(类比神经网络中神经元输出)。

人脑神经元的结构和处理方式要复杂的多,神经网络模型只是非常简化的模型。人脑如何进行学习?是否也是通过反向传播和梯度下降算法现在还不清楚,可能会更加复杂

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

深度 | 机器学习中的模型评价、模型选择及算法选择

作者:Sebastian Raschka 翻译:reason_W 编辑:周翔 简介 正确使用模型评估、模型选择和算法选择技术无论是对机器学习学术研究还是工业场景...

5894
来自专栏数据派THU

用这种方法实现无监督端到端图像分类!

FAIR 的研究者提出了一种为卷积网络进行大规模端到端训练的聚类方法。他们证明了用聚类框架获得有用的通用视觉特征是可实现的。

1251
来自专栏IT派

机器学习面试题目总结

如果你觉得好的话,不妨分享到朋友圈。 1.机器学习中特征的理解 def:特征选择和降维 特征选择:原有特征选择出子集,不改变原来的特征空间 降维:将原有的特征...

4355
来自专栏计算机视觉与深度学习基础

目标检测算法:RCNN、YOLO vs DPM

以下内容节选自我的研究报告。 1. 背景 目标检测(object detection)简单说就是框选出目标,并预测出类别的一个任务。它是一种基于目标几何和统计...

4416
来自专栏大数据挖掘DT机器学习

一种面向高维数据的集成聚类算法

一种面向高维数据的集成聚类算法 聚类集成已经成为机器学习的研究热点,它对原始数据集的多个聚类结果进行学习和集成,得到一个能较好地反映数据集内在结构的数据划分。...

4437
来自专栏专知

【论文分享】中科院自动化所多媒体计算与图形学团队NIPS 2017论文提出平均Top-K损失函数,专注于解决复杂样本

【导读】损失函数的设计一直是机器学习和模式识别中的核心问题。目前中国科学院自动化研究所和美国纽约州立大学奥尔巴尼分校合作提出了一种新的聚合损失函数,即平均 ? ...

3545
来自专栏AI科技大本营的专栏

深度学习最新方法:随机加权平均,击败了当前最先进的Snapshot Ensembling

【AI 科技大本营导读】本文,我们将讨论近期两篇有意思的论文,论文的大致思路是通过一种集成方式来提高任意给定的神经网络性能。这两篇论文分别是:

2273
来自专栏null的专栏

可扩展机器学习——概述

注:这是一份学习笔记,记录的是参考文献中的可扩展机器学习的一些内容,英文的PPT可见参考文献的链接。这个只是自己的学习笔记,对原来教程中的内容进行了梳理,有些图...

3316
来自专栏新智元

训练神经网络的五大算法:技术原理、内存与速度分析

【新智元导读】 训练神经网络的算法有成千上万个,最常用的有哪些,哪一个又最好?作者在本文中介绍了常见的五个算法,并从内存和速度上对它们进行对比。最后,他最推荐莱...

4659
来自专栏计算机视觉战队

每日一学——神经网络(下)

神经网络结构 灵活地组织层 将神经网络算法以神经元的形式图形化。神经网络被建模成神经元的集合,神经元之间以无环图的形式进行连接。也就是说,一些神经元的输出是另一...

3437

扫码关注云+社区