TensorFlow从0到1 | 第八篇:万能函数的形态:人工神经网络

之前花了不小的篇幅来解释线性回归,尽管线性模型本身十分简单,但是确定模型参数的过程,却是一种数据驱动的、自学习的通用方式。准确的说,这个过程,是基于数据的、运用梯度下降算法来优化模型(减小损失)的算法框架。无论模型变得多复杂(多维、高阶),理论上我们都可以利用这个算法过程拟合模型。

似乎当有了数据就有了一切,但是这其中隐藏着一个假设:要事先知道模型的函数形式。

在复杂的现实问题面前,这个假设注定是毫无用处的。如果要对手写体数字进行分类,那么这个模型是几元的?几次的?包含多少项?不知道。这个时候,仅有大量的样本数据还不够,我们还需要一种“万能函数”的表达方式。

为了得到“万能函数”,人们转向模仿人类的大脑。大脑中并没有事先存储好的、用于分类各类事物的函数模型,而是1千亿(1011)个神经元。大量的、具有单一功能的单元的聚合,能够产生极其复杂的功能。神经元之于人脑,晶体管之于CPU,莫不如是。

神经元

神经科学的研究成果一步步的揭开了神经元工作机制秘密。第一个提出神经元工作机制的赫布,在他1949年出版的《行为的组织》一书中写道:

“当A细胞的轴突和B细胞足够近,并且重复或不断地对其放电时,A、B中的一个细胞或者两个细胞都会经历生长过程或者代谢改变,这样A细胞的效率就会得到提高”。

这段话经常被转述成“一起放电的神经元也会被串联在一起”。通过相互激发而连接的神经元集群,可以编码各种概念和记忆。

感知器神经元

1943年,Warren McCulloch和Walter Pitts设计了第一个人工神经元模型。到了50年代,Frank Rosenblat基于麦卡洛克-皮茨神经元,发明了广为人知的感知器神经元。此时,把感知器神经元组合在一起而形成的人工神经网络,不仅可以模拟通用的数字电路,而更使其与前者不同的是:人工神经网络能自动学习。通过学习算法,神经网络中的每个神经元可以根据外部刺激而调整自身(权值和偏置),从而形成新的功能。

人工神经元模仿大脑神经元细胞,有多个树突(dendrite)接受多路输入,一个轴突(axon)作为输出。因为神经元的输出是其他神经元的输入,所以神经元的输入和输出共享一个取值范围。感知器人工神经元如下图所示:

感知器

感知器输出

感知器的特征:

  • 神经元细胞左侧是很多个“树突”,可以接受n个输入x1, x2, ... xn,每个输入的取值范围是0或1;
  • 每个输入,都对应一个不同的权值w;
  • 神经元细胞右侧的1个“轴突”,是神经元的输出;
  • 如果输入的加权和小于阈值,则输出0;如果加权和大于阈值,则输出1。

对于输出稍作精简,引入偏置b = -threshold,并用向量点积代替加权和的形式:

感知器输出

S型神经元

一个更加通用的神经元模型如下图所示,这里引入了激活函数σ。也就是说,输出是带权输入z=w·x+b的函数σ(z)。

对比一下之前讨论的线性模型y=ax+b,你会发现,一个神经元就已经比线性模型复杂很多了:

  • 线性模型只有一个输入,对应一个权值w,而神经元是多个;
  • 线性模型没有激活函数。

通用神经元模型

一个重要的激活函数形式是sigmoid,《终极算法》甚至把它形容为世界上最重要的曲线。以sigmoid函数作为激活函数的神经元,就是目前应用最广泛的一种人工神经元——S型神经元。

sigmoid函数定义如下:

sigmoid函数

sigmoid函数图如下:

sigmoid函数

sigmoid函数的输出范围是[0, 1]区间中的任意数。而这也是S型神经元的特性,相较于感知器神经元,它的输入和输出不再只是0和1二进制数了,而是[0, 1]一个连续变化区间中任意值。这解决了感知器神经元的一个重大的缺陷:在带权输入z=w·x+b接近0的情况下,一个很小的变化z就会导致输出的反转。

与S型感知器不同,感知器的激活函数是一个阶跃函数,这里给出函数图形以作比较:

step函数

万能函数的形态:人工神经网络

模仿人脑神经元的连接方式,将多个S型人工神经元组成具有特定结构的网络,或许离我们想要的“万能函数”就不远了。下图是一个经典的3层神经网络结构,也被称为多层感知器MLP(Multilayer Perceptron)。明明是S型神经元构成的网络,却被称为多层感知器?的确如此。这里只需要知道这是由于历史原因造成的就可以了。

人工神经网络架构

其中第一层是输入层,提供整个网络的数据输入。输入层的每个神经元没有输入,仅仅提供1个输出。第二层称为隐藏层。第三层称为输出层。这种每个神经元都连接了上一层所有神经元输出的连接方式,称为全连接,以此方式连接的神经网络称为全连接神经网络

神经元之间的连接,是将1个神经元的输出连接到下一个神经元的输入上,虽然图中显示神经元的输出连接到后一层的每个神经元的输入,但是要注意这些是同一个输出,而不是有多个输出

从输入、输出的角度再来观察神经网络,会发现其本身也是一种函数,输入为x,输出为f(x),尽管函数具体形式无法直接描述,但是直觉上它应该可以表达极其复杂的形式。因为它是由大量的、每个都要比线性函数复杂的多的神经元组成的。

神经网络就是我们要找的“万能函数”的形态。1989年,George Cybenko证明了神经网络的普遍性定理:无论函数的形式f(x)有多复杂,总存在⼀个神经⽹络,对于任何可能的输⼊x,能够输出f(x)或其足够精度的近似值。对此,推荐阅读Michael Nielsen做的一个可视化的、归纳式的证明。

尽管又引入了一堆需要的问题——隐藏层数的确定,隐藏层神经元个数的确定,激活函数的选择等等,但是我们获得了一种“万能函数”的表达方式。至此,终于可以说,只要有了足够多的样本数据,基于神经网络,就能自动的、智能的训练出所需的模型。

原文发布于微信公众号 - 人工智能LeadAI(atleadai)

原文发表时间:2017-08-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

MIT 6.S094· 深度学习 | 学霸的课程笔记,我们都替你整理好了

计算机视觉,到目前为止都是深度学习。并且大部分成功理解图片含义的案例都是使用神经网络。

1102
来自专栏算法channel

BAT面试题3:请问GBDT和XGBoost的区别是什么?

接下来,每天推送一道BAT的面试题,一般问到的这些知识点都是很重要的,所以知道的就再复习一下,不知道的希望这篇可以帮助到你。日积月累,你会在不知不觉中就步入机器...

1152
来自专栏大数据挖掘DT机器学习

【干货】机器算法学习感悟(下)

今天的内容是续接昨天的,请喜欢的亲们一如既往的支持! (…………续) 第二个是KNN。KNN将测试集的数据特征与训练集的数据进行特征比较,然后算法提取样本集中特...

3046
来自专栏魏晓蕾的专栏

【机器学习】CS229课程笔记notes2翻译-Part IV生成学习算法

      到目前为止,我们主要谈论建模p(y|x;θ)的学习算法,给定x的y的条件分布。例如,logistic回归建模p(y|x;θ)为hθ(x)=g(θTx...

2276
来自专栏机器之心

资源 | 从反向传播到迁移学习,盘点人工智能从业者必备的10个深度学习方法

3147
来自专栏人工智能LeadAI

R-CNN 物体检测第一弹

今天,重读了 R-CNN 的 TPAMI 版本,感觉受益颇多。该版相比之前的会议版,在检测流程和实现细节上表述得更为清晰。此外,因为是改投 TPAMI 的关系,...

4166
来自专栏数据派THU

一文读懂神经网络(附PPT、视频)

本文共6500字,建议阅读10分钟。 本文从神经网络的发展历史出发,为你介绍感知器模型、前馈神经网络及BP算法。 [导读] 提起神经网络,你会想到什么?关于深度...

4319
来自专栏人工智能LeadAI

监督学习中各算法优缺点及应用场景概览

记录一波监督学习算法的应用场景和优缺点。 高斯朴素贝叶斯 场景:该模型常用于性别分类(https://en.wikipedia.org/wiki/Naive_B...

4616
来自专栏大数据挖掘DT机器学习

数据挖掘分类方法小结

分类技术在很多领域都有应用,例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;当前的市场营销中很重要的一个特点是强调客户细分。客户类别分析的功能也在...

3507
来自专栏量子位

一文看懂迁移学习:怎样用预训练模型搞定深度学习?

瀚宸 编译自 Analytics Vidhya 量子位 出品 | 公众号 QbitAI 引言 跟传统的监督式机器学习算法相比,深度神经网络目前最大的劣势是什么?...

5105

扫码关注云+社区