深度学习入门教程 第三讲

1.3 神经网络的架构

在下一节我会介绍一个神经网络,我们可以用它来很好地分类手写数字。准备进入下一节时,解释一些可以让我们命名网络中不同部分的术语是很有帮助的。假设我们有这样的网络:

前面提过,这个网络中最左边的称为输入层,其中的神经元称为输入神经元。最右边的,即输出层包含有输出神经元,在本例中,输出层只有一个神经元。中间层,既然这层中的神经元既 不是输入也不是输出,则被称为隐藏层。“隐藏”这一术语也许听上去有些神秘 —— 我第一次听到这个词,以为它必然有一些深层的哲学或数学涵意 —— 但它实际上仅仅意味着“既非输入也 非输出”。上面的网络仅有一个隐藏层,但有些网络有多个隐藏层。例如,下面的四层网络有两 个隐藏层:

有些令人困惑的是,由于历史的原因,尽管是由 S 型神经元而不是感知机构成,这种多层网 络有时被称为多层感知机或者 MLP。在这本书中我不会使用 MLP 这个术语,因为我认为这会 引起混淆,但这里想提醒你它的存在。

设计网络的输入输出层通常是比较直接的。例如,假设我们尝试确定一张手写数字的图像上 是否写的是“9”。很自然地,我们可以将图片像素的强度进行编码作为输入神经元来设计网络。 如果图像是一个 64 × 64 的灰度图像,那么我们会需要 4096 = 64 × 64 个输入神经元,每个强 度取 0 和 1 之间合适的值。输出层只需要包含一个神经元,当输出值小于 0.5 时表示“输入图 像不是一个 9”,大于 0.5 的值表示“输入图像是一个 9”。

相比于神经网络中输入输出层的直观设计,隐藏层的设计则堪称一⻔艺术。特别是,通过一 些简单的经验法则来总结隐藏层的设计流程是不可行的。相反,神经网络的研究人员已经为隐 藏层开发了许多设计最优法则,这有助于网络的行为能符合人们期望的那样。例如,这些法则 可以用于帮助权衡隐藏层数量和训练网络所需的时间开销。在本书后面我们会碰到几个这样的 设计最优法则。

目前为止,我们讨论的神经网络,都是以上一层的输出作为下一层的输入。这种网络被称为前馈神经网络。这意味着网络中是没有回路的 —— 信息总是向前传播,从不反向回馈。如果确 实有回路,我们最终会有这样的情况:σ 函数的输入依赖于输出。这将难于理解,所以我们不允 许这样的环路。

然而,也有一些人工神经网络的模型,其中反馈环路是可行的。这些模型被称为循环神经网络。这种模型的设计思想,是具有休眠前会在一段有限的时间内保持激活状态的神经元。这种 激活状态可以刺激其它神经元,使其随后被激活并同样保持一段有限的时间。这样会导致更多的神经元被激活,随着时间的推移,我们得到一个级联的神经元激活系统。因为一个神经元的输出只在一段时间后而不是即刻影响它的输入,在这个模型中回路并不会引起问题。

循环神经网络比前馈网络影响力小得多,部分原因是循环网络的学习算法(至少目前为止) 不够强大。但是循环网络仍然很有吸引力。它们原理上比前馈网络更接近我们大脑的实际工作。 并且循环网络能解决一些重要的问题,这些问题如果仅仅用前馈网络来解决,则更加困难。然而为了篇幅,本教程将专注于使用更广泛的前馈网络。

原文发布于微信公众号 - UAI人工智能(UniversityAI)

原文发表时间:2017-10-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

深度学习综述:Hinton、Yann LeCun和Bengio经典重读

20730
来自专栏智能算法

深度学习三人行(第8期)----卷积神经网络通俗原理

接下来我们一起学习下网红网络之卷积神经网络(CNN),我们多多交流,共同进步。本期主要内容如下:

10620
来自专栏数据派THU

揭秘深度学习成功的数学原因:从全局最优性到学习表征不变性

来源:机器之心 本文长度为4900字,建议阅读7分钟 本文为深层网络的若干属性,如全局最优性、几何稳定性、学习表征不变性,提供了一个数学证明。 近年来,深度学习...

29570
来自专栏AI科技评论

深度 | 谷歌的新CNN特征可视化方法,构造出一个华丽繁复的新世界

AI 科技评论按:深度神经网络解释性不好的问题一直是所有研究人员和商业应用方案上方悬着的一团乌云,现代CNN网络固然有强大的特征抽取能力,但没有完善的理论可以描...

37980
来自专栏机器学习算法与Python学习

深度学习角度 | 图像识别将何去何从?

本文主要介绍了一些经典的用于图像识别的深度学习模型,包括AlexNet、VGGNet、GoogLeNet、ResNet、DenseNet的网络结构及创新之处,并...

55150
来自专栏AI研习社

谷歌的新CNN特征可视化方法,构造出一个华丽繁复的新世界

AI 研习社按:深度神经网络解释性不好的问题一直是所有研究人员和商业应用方案上方悬着的一团乌云,现代CNN网络固然有强大的特征抽取能力,但没有完善的理论可以描述...

40750
来自专栏SIGAI学习与实践平台

【技术短文】基于深度负相关学习的人群计数方法

原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不得转载,不能用于商业目的。

20260
来自专栏机器之心

学界 | Yoshua Bengio与MIT发表新论文:深度学习中的泛化

选自arXiv 机器之心编译 参与:路雪、刘晓坤 日前,MIT 和 Bengio 发表新论文,探讨深度学习中的泛化。该论文解释了深度学习能够实现较好泛化的原因,...

28480
来自专栏华章科技

揭秘深度学习成功的数学原因:从全局最优性到学习表征不变性

近年来,深度学习大获成功,尤其是卷积神经网络(CNN)在图像识别任务上的突出表现。然而,由于黑箱的存在,这种成功一度让机器学习理论学家颇感不解。本文的目的正是要...

8720
来自专栏人工智能

揭秘深度学习成功的数学原因:从全局最优性到学习表征不变性

原标题:揭秘深度学习成功的数学原因:从全局最优性到学习表征不变性 选自arXiv 作者:RenéVidal、Joan Bruna、Raja Giryes、Ste...

32860

扫码关注云+社区

领取腾讯云代金券