前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >神经网络的第一性原理

神经网络的第一性原理

作者头像
用户9624935
发布2022-04-02 15:02:04
6920
发布2022-04-02 15:02:04
举报
文章被收录于专栏:凯云实验室凯云实验室

学习的本质是什么?神经网络的本质是什么?生物智能的隐喻给了我们哪些启示?为什么层级结构(浅层和深层)适用于学习(自然学习)?这些问题不仅困扰着机器学习的很多入门者,也困扰着很多进阶者。本文尝试从以下几个方面探讨神经网络的第一性原理:

  • 学习的本质
  • 神经网络的数学本质
  • 生物学的启示
  • 物理世界的层级结构

前面两点主要关注学习的功能问题,后面两点主要关注学习的结构问题。功能和结构是统一的。

在学习的本质中,借鉴熵的概念,讨论学习的本质之一;同时也给出一个统计学习的本质定义,可以直接推导出神经网络的学习原理。在神经网络的数学本质中,主要论述一个观点:神经网络本质上是一个信息的非线性变换系统,是对复杂函数的一种逼近表示。可以看出,无论是熵定义的学习本质概念,还是神经网络的数学本质,原理上是统一的。

在生物学的启示中,主要关注大脑结构本身,以及视觉和记忆的层级机制。在物理世界的层级结构中,主要关注语音,文字和图片的层级化本质和表示;同时也提到宇宙组成的两个重要属性。

第一部分:学习的本质


网络上YJango先生的围绕减熵阐述了他的整个思考流程,我深以为然,故直接引用如下。

图1 YJango先生的学习理论

生物要做的是降低环境的熵,将不确定状态变为确定状态。通常机器学习是优化损失函数,并用概率来衡量模型优劣。然而概率正是由于无法确定状态才不得不用的衡量手段。生物真正想要的是没有丝毫不确定性。 深层神经网络在自然问题上更具优势,因为它和生物学习一样,是找回使熵增加的“物理关系”(知识,并非完全一样),将变体(2^n)转化回因素(n)附带物理关系的形式,从源头消除熵(假设每个因素只有两种可能状态)。 这样所有状态间的关系可以被确定,要么肯定发生,要么绝不发生,也就无需用概率来衡量。一个完美训练好的模型就是两个状态空间内所有可能取值间的关系都被确定的模型。

由此,YJango先生得到的学习本质是:

学习目标:是确定(determine)两个状态空间内所有可能取值之间的关系,使得熵尽可能最低。

在统计学习理论中,学习的本质定义如下:

图2 统计学习理论的本质定义

图3 风险定义

通过定义风险,求取映射函数。这样的定义比上面熵的定义更加具体和数学化。

第二部分:神经网络的数学本质


神经网络本质上是一个信息的非线性变换系统。设一个三层网的输入层,隐含层及输出层的节点数分别为n、k、p,则p 个输出分别为:

图4 神经网络的数学本质

上式定义了一个函数逼近结构,并且式子中的参数都可调,调整W和θ就使得用于逼近的基函数相应调整。相比一般逼近方法,神经网络所定义的函数逼近结构的优越性就在于它不但是一个对逼近系数寻优的过程,而且是一个对逼近基函数组自适应寻优的过程。并且,随着网络层数的增加,叠加的结果使基函数寻优的自由度增加了。网络的非线性建模能力随着层数的增加而快速增长。这是一般逼近方法所不能比拟的。

1989年,Funabashi,Arai 和 Hecht-nielsen 等人分别证明了(其证明相当复杂)三层前馈神经网络能任意逼近紧集上的连续函数和平方可积函数。也有文献提到“理论证明两层神经网络可以无限逼近任意连续函数”。面对复杂的非线性分类任务,多层神经网络(用连接点表示)可以对输入空间进行整合,使得数据线性可分。下面借用Yann LeCun, Yoshua Bengio 和 Geoffrey Hinton 在2015年《自然》杂志上发表的《Deep learning》一文给出了一个例子,说明输入空间中的规则网格是如何被隐藏层转换的。

两条曲线,神经网络需要学习区分两条曲线上的点:

图 5

只有输入层和输出层神经网络的分类效果:

图 6

增加隐藏层的分类效果:

图 7

我们知道两层神经网络是线性分类问题,那么两个线性问题叠加在一起为什么就可以解决非线性分类问题了呢?上图很好的解释了我们的疑问。首先上图6可以看出,三层神经网络的决策分界非常平滑,而且分类的很好。而上图7展示了该图经过空间变换后的结果,我们可以看到输出层的决策分界仍然是直线,关键是,从输入层到隐含层时,发生了空间变换。也就是说三层神经网络可以做非线性分类的关键便是隐含层的加入,通过矩阵和向量相乘,本质做了一次线性变换,使得原先线性不可分的问题变得线性可分。所以多层神经网络本质就是复杂函数的逼近和拟合。

下面从神经网络的权重训练的角度讨论一下函数的拟合问题。我们知道训练神经网络的目的是为了调整权重参数,为什么调整参数就可以改变线性变换的结果呢?我们通过一组动画形象的看一下(动画和示例来自《Neural Networks and Deep Learning》)。

二维效果,单一输入 (动画1):增加权重,曲线变得更陡峭,直到最终看起来像一个阶梯函数。

视频内容

动画1

随着同层节点的增多,图像呈现为多级阶梯函数。

图 8 增加同层节点

三维效果,两个输入(动画2 ):增加一个输入的权重,曲面变得更陡峭,直到最终看起来像一个跃阶函数。

视频内容

动画2

增加一个隐藏层,图像看起来将会是这样的:

图 9 增加隐藏层

继续增加隐藏层的节点数,可以得到一个塔形结构:

图10 增加隐藏层的节点数

三维效果,两个输入,隐藏层含有4个节点(动画3 ):通过修改隐藏层的权重,对塔形结构进行调整:

视频内容

动画3

文献《神经网络的函数逼近理论》从理论上研究神经网络的非线性逼近能力。文章给出了以前馈网络为代表的一类网络结构所定义的映射关系究竟对哪些非线性映射具有逼近能力,逼近的阶及精度是怎样的,与经典函数逼近相比有哪些特点、优点,能否建立与经典函数逼近中Weierstrass第一定理、Chebyshev 定理、Borel 定理以及Jackson 定理相应的结果。

下面附录一些逼近定理的解释:

魏尔斯特拉斯逼近定理:

  1. 闭区间上的连续函数可用多项式级数一致逼近。
  2. 闭区间上周期为 2π 的连续函数可用三角函数级数一致逼近。

Chebyshev 定理说明随机变量X取值基本上集中在EX附近,这进一步说明了方差的意义。 Borel 定理又称有限覆盖定理。大意是精心地调整使用的开区间的位置和大小,使得为了覆盖住这个闭区间,必须使用无穷多个开区间才得以完成。其关键有两点:第一“被覆盖区间必须是闭区间”,第二“覆盖闭区间的区间区间系必须是开区间”。 在逼近论中,Jackson 定理给出函数利用多项式逼近的上界估计。

第三部分:生物学的启示


生物学给出的启示是,模仿人脑。这一部分主要给出一些视觉和记忆方面的例子,这些例子都证实了人类神经系统和大脑的工作其实是不断将低级抽象传导为高级抽象的过程,高层特征是低层特征的组合,越到高层特征就越抽象。

图11 大脑的视觉分层处理

在对哺乳类动物开展的解剖研究中发现,大脑皮质存在着层级化的系列区域;在此基础上,神经科学研究人员又通过测试视觉信号输入人脑视网膜后经大脑前额皮质层到达运动神经的时间,推断发现大脑皮质层的主要功能在于将视觉信号通过复杂的多层网络模型后加以提取观测信息,而并未直接对视觉信号进行特征处理(如上图所示),而是使接收到的刺激信号通过一个复杂的层状网络模型,进而获取观测数据展现的规则。

也就是说,人脑并不是直接根据外部世界在视网膜上投影,而是根据经聚集和分解过程处理后的信息来识别物体。因此视皮层的功能是对感知信号进行特征提取和计算,而不仅仅是简单地重现视网膜的图像。

除了层级结构,神经网络的权值训练思想也是来自于著名的Hebb学习规则。我的前一篇文章《神经网络简史》介绍了从大脑神经元功能的发现,到感知机,再到Hebb学习规则等神经网络发蒙的简述历史。

人类感知系统这种明确的层级结构极大地降低了视觉系统处理的数据量,并保留了物体有用的结构信息。对于要提取具有潜在复杂结构规则的自然图像、视频、语音和音乐等结构丰富数据,深度学习能够获取其本质特征。

图12 David Marr是英国心理学家和神经科学家。 他将心理学,人工智能,和神经生理学的研究成果结合起来,提出了全新的关于视觉处理的理论。他被认为是计算神经科学的创始人。

关于人脑对于视觉信息的处理,著名神经学家David Marr在在1982年出版的《视觉计算》书中提出了视觉计算框架,并在序言中指出,视觉计算的关键是如何表示(representation)。他认为人类视觉主要完成的工作就是从外部世界投射得到内部表示。对应于人类视觉,提出视觉计算框架应分为初级视觉、中级视觉和高级视觉三个层级,组成一个自底向上的流水线。初级视觉主要是从图像中提取一些基本的表示,也就是所谓特征;中级视觉是如何把这些基本的元素组合成不同部分,这涉及到分割;而高级视觉是从分割结果中得到物体的三维表示。

人脑对于记忆是如何处理的呢?

记忆就是对过去的经验或是经历,在脑内产生准确的内部表征,并且能够正确、高效地提取和利用它们。记忆涉及信息的获得、储存和提取等多个过程,这也就决定了记忆需要不同的脑区协同作用。在最初的记忆形成阶段,需要脑整合多个分散的特征或组合多个知识组块以形成统一的表征。从空间上讲,不同特征的记忆可能储存于不同的脑区和神经元群。在时间上,记忆分为工作记忆、短时记忆和长时记忆。

图13 新皮质的分层结构

一般认为,记忆的生理基础与新皮质和海马有关。新皮质发展成为六层,如图2 所示。第一层是皮质内部神经元投射信息交汇的地方。底下L2/3和L5层的锥体细胞投射上来轴突和顶树突,在这里交汇,这里的神经元细胞很少,其中大部分都是抑制性的。L2/3 层有各种神经元,主要是小椎体细胞,构建皮质内的局部回路,这些锥体细胞主要连接是在皮质内部,但也有连到胼胝体的。L4 主要是颗粒性细胞,胞体较小而密集,负责接收丘脑传递的感觉信号。L5 主要负责传出信号,包含了最大的椎体细胞,将轴突投射到其他不同的脑区。L6 也是主要负责传出信号,但也接收丘脑传入的反馈信号。

新皮质记忆结构化的知识,存储在新皮质神经元之间的连接中。当多层神经网络训练时,逐渐学会提取结构,通过调整连接权值,使网络输出的误差最小化,成为相对稳定的长时记忆。

图14 海马体的构造

短时记忆记录在海马体中。在海马中,椎体细胞和细胞体组成层状并行的锥体细胞层,它的树突是沿海马沟的方向延伸。

第四部分:物理世界的层级结构


层级,这个词来源于希腊语的hierarchia,意思是“大祭司的规则”,表达了一种分明的等级性。它是对事物进行分门别类的一种方法,即用高低、同级别这样的关系来对事物做出划分。用数学的语言来讲,所谓的层级,就是指在我们所讨论的事物集合上定义了一种偏序关系。

自然界存在着大量的层级关系。比如,高低就能构成一种层级。住在楼上的人就比楼下的人位于更高的层级。再比如,尺度也构成了层级。比如,我们说人体是由不同的小尺度器官组成的,而器官又是由小尺度大量的细胞组成的,而细胞是由更小尺度的分子构成的……。泛化和抽象是人类语言中的层级,比如:“动物”就是一个高高在上的抽象的层级,“鸟类”则是一个更具体的层级,“麻雀”则是更具体的概念。

图15 大脑神经元之间连接的层级结构

大自然和人工系统中这些形形色色的层级性会反映到我们的数据中,这就迫使我们能够读懂层级性的数据。于是,深度学习技术应运而生,它通过加深神经网络层级,从而应付数据中的层级性。从对卷积神经网络的剖析来看,不同层级的神经元实际上是在不同尺度上提取特征。例如,如果我们用大量的图片训练了一个可以对动物进行分类的深度神经网络,那么该网络就会抽取数据之中的多尺度(层级)信息。

图16 神经网络如何识别一只狗

采用特征来表示待处理问题中的对象,是所有应用任务的首要工作。比如在处理文本分类时,经常用词集合特征来表示文档,之后采用不同的分类算法来实现分类。类似的,在图像处理任务中,最为普遍的就是把图像用像素集合特征加以表示。选取不同的特征对任务的最终结果影响较大。因此,在解决实际问题时,如何选取合适的特征非常重要。

对于很多训练任务来说,特征具有天然的层级结构。在语音、图像、文本处理任务中,处理对象的层级结构如下表所示。以图像识别为例。最初的原始输入是图像的像素,之后众多相邻像素可以组成线条, 多个线条组成纹理,并进一步形成图案;局部图案又构成了整个物体。不难发现,原始输入和浅层特征之间的联系较容易找到。那么,在此基础上,能否通过中间层特征,逐步获取原始输入与高层特征的联系呢?这是特征的层级可表示性问题。

语音、图像、文本领域的特征层级结构:

特征的层级可表示性也得到了证实。1995年前后,Bruno Olshausen和David Field]收集了很多黑白风景照,从这些照片中找到了400个16×16的基本碎片,然后从照片中再找到其他一些同样大小的碎片,希望将其他碎片表示为这400个基本碎片的线性组合,并使误差尽可能小,使用的碎片尽可能少。表示完成后,再固定其他碎片,选择更合适的基本碎片组合优化近似结果。反复迭代后,得到了可以表示其他碎片的最佳的基本碎片组合。他们发现,这些基本碎片组合都是不同物体不同方向的边缘线。这说明可以通过有效的特征提取,将像素抽象成更高级的特征。类似的结果也适用于语音特征。

图17 初级图像特征的提取和表示(Sparse Coding)

最近的文章《Why does deep and cheap learning work so well?》和《The Extraordinary Link Between Deep Neural Networks and the Nature of the Universe》提出的论点也很有意思。神经网络利用了宇宙的两个属性。第一是宇宙是所有可能功能的一小部分,深层神经网络不需要逼近任何可能的数学函数,只需要逼近它们的一小部分。宇宙中事物的组合可能是无限的,但在物理规律中只是以多项式的形式出现。这也可以称为物理世界的局部性。第二是宇宙的层级结构,原子核形成原子,然后又形成分子,细胞,有机体,行星,太阳系,星系等。复杂结构通常通过一系列更简单的步骤形成。神经网络的层可以逼近因果序列中的每个步骤。

物理学的基本规律包括对称性,局部性,组成性和多项式对数概率等属性,现在需要探讨的是如何将这些属性转化为神经网络。

《Why does deep and cheap learning work so well?》引起了广泛的讨论。文章的作者是Max Tegmark 和 Henry Lin,Max Tegmark是宇宙学家,Henry Lin是他的学生。文章的中心观点是深度和cheap学习的成功不仅取决于数学,而且还取决于物理学。这个论点假设所有问题数据遵循“自然法则”,某种意义上解释了深度学习在“自然学习”上成功,但是却无法解释深度学习在其他非自然领域的成功,比如识别汽车,自动驾驶,创造音乐和围棋游戏等。

另外,网络上也有资料讨论深度学习背后的统计物理和能量模型,未得其要领,暂不解读。


参考文献:

《Learning Deep Architectures for AI》

《Why does deep and cheap learning work so well?》Henry W. Lin等

《Neural Networks, Manifolds, and Topology》

《The Extraordinary Link Between Deep Neural Networks and the Nature of the Universe》

《Neural Networks and Deep Learning》 Michael Nielsen

《Theoretical Motivations for Deep Learning》Yoshua Bengio

《The Holographic Principle: Why Deep Learning Works》Carlos E. Perez

《WHY DEEP LEARNING IS SUDDENLY CHANGING YOUR LIFE》 Roger Parloff

《心智模型CAM的学习记忆机制》史忠植

《面向自然语言处理的深度学习研究》奚雪峰等

《深度学习及并行化实现概述》

《深度学习与层级性:从RNN到注意力与记忆》

《神经网络的函数逼近理论》李明国等

《深度学习研究综述》孙志军等

《沿着Marr的道路继续前进》 王天树

《统计学习理论的本质》

《深层学习为何要“Deep”》YJango

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-08-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 补天遗石 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档