首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

从反向传播开始,人工神经网络揭示了大脑如何学习的线索

编译:大路

2007 年,在一场著名 AI 会议期间,深度神经网络的一些科学家组织了一次非正式的 「卫星会议」。因为大会组织方曾拒绝他们召开关于「深度神经网络」正式研讨会的请求,理由是「深度神经网络」距离在人工智能中发挥作用还有很长的时间。

这次「卫星会议」的最后一位发言人是多伦多大学的杰弗里 · 辛顿(Geoffrey Hinton),他是一位认知心理学家和计算机科学家,引导了深层网络研究的一些重要突破。

他先说了一句话:「大约一年前,我回家吃晚饭时,我跟家人说,『我想我终于弄明白了大脑的工作原理』,我 15 岁的女儿脱口而出『哦,爸爸,别再这样了!』」

观众们都笑了起来,辛顿继续说,「那么,这就是它的工作原理。」 更多的笑声接踵而至。

多伦多大学计算机科学家杰弗里 · 辛顿(Geoffrey Hinton)

辛顿的笑话其实也揭示了一个科学界中严肃的追求——用 AI 来理解生物大脑。如今,深度网络可以说是已经「统治」了人工智能领域,部分原因是由于一种叫做反向传播(backpropagation)的算法。该算法使深度网络能够从数据中学习,并赋予它们分类图像、识别语音、翻译语言、为自动驾驶汽车理解路况以及一系列任务的能力。

而真正的人类大脑极有可能是「依靠」同样的算法!

蒙特利尔大学的计算机科学家、魁北克人工智能研究所的科学主任、2007 年研讨会的组织者之一约舒亚 · 本吉奥(Yoshua Bengio)说,这不仅仅是因为 「大脑能够比最先进的人工智能系统更好更快地进行泛化和学习」。由于各种原因,反向传播与大脑的解剖学和生理学并不兼容,特别是在大脑皮层。

约舒亚和许多其他受辛顿启发的人一直在思考更多在生物学上也能讲得通的「学习机制」,这些机制至少可能与反向传播的成功相匹配。其中三种:反馈对齐、平衡传播和预测编码已经显示出极大的可能。

一些研究人员还将大脑中「某些类型的皮质神经元」和一些「诸如集中注意力等过程」的特性纳入其模型中,「所有这些努力都让我们更接近理解『人类大脑中的算法』」。

「大脑是一个巨大的谜团。如果我们能够解开它的一些原理,可能对人工智能的发展有飞跃式的帮助,」本吉奥说,「当然了解大脑本身也有很大的价值。」

通过反向传播进行学习

几十年来,神经科学家关于大脑如何学习的研究,主要是以加拿大心理学家唐纳德 - 赫布(Donald Hebb)在 1949 年提出的一条规则为指导,这条规则一般被解读为 「一起发射的神经元,就会连在一起」(Neurons that fire together, wire together)。也就是说,相邻神经元的活动关联性越大,它们之间的突触连接就会变得越强。这个原理,经过一些修改,确实成功地解释了大脑中某些类型的学习和视觉分类任务。

但是,对于必须「从错误中学习」的大型神经元网络来说,它的解释效果就差得多了。对于深度网络深处的神经元来说,没有直接针对性的方法去学习错误,更新自己并减少犯错。「希比安规则(Hebbian rule)是一种非常狭隘、特殊且不太敏感的错误信息使用方式。」斯坦福大学计算神经科学家、计算机科学家丹尼尔 · 亚明斯(Daniel Yamins)说。

尽管如此,它也是神经科学家进行研究工作时最好的规则了,甚至在它主导神经科学之前,它就启发了 20 世纪 50 年代末第一批人工神经网络的发展。这些网络中的每个人工神经元都会接收多个输入,并产生一个输出,就像生物大脑一样。

神经元用所谓的「突触 」权重(一个数字用来表示分配给该输入的重要性)乘以每个输入,然后将加权输入相加——这个总和就是神经元的输出。到了 20 世纪 60 年代,人们清楚地看到,这种神经元可以组织成一个具有输入层和输出层的网络,并且可以训练人工神经网络来解决某一类简单的问题。在训练过程中,神经网络可以得到其神经元的最佳权重,以消除或最小化错误。

人工神经网络模仿神经元进行工作

然而,即使在 20 世纪 60 年代,解决更复杂的问题也需要一个或多个「隐藏层」的神经元夹在输入层和输出层之间。没有人知道如何有效地训练具有隐藏层的人工神经网络 -- 直到 1986 年,辛顿、已故的大卫 · 鲁梅尔哈特(David Rumelhart) 和罗纳德 · 威廉姆斯 (Ronald Williams)发表了反向传播算法。

该算法分两个阶段工作。在「向前」阶段,当网络得到一个输入时,它可以推断出一个输出,这个输出可能是错误的。第二个「向后」阶段算法会更新突触权重,使输出更符合目标值。

为了理解这个过程,可以使用一个「损失函数」,它将「推断输出和期望输出之间的差异」描述为山丘和山谷的景观。当一个网络用一组给定的突触权重进行推理时,它最终会在「损失」景观的某个位置。为了学习,它需要沿着斜坡或梯度向某个山谷移动,在那里「损失」会尽可能地最小化。总之,反向传播是一种更新突触权重以下降该梯度的方法。

实质上,算法的「后向阶段」会计算每个神经元的突触权重对误差的贡献有多大,然后再更新这些权重以提高网络的性能。这种计算从输出层到输入层依次向后进行,因此被称为反向传播。对输入和期望的输出进行反复训练,最终你会得出整个神经网络可接受的权重集。

这对大脑来说是不可能的

反向传播的发明立即引起了一些神经科学家的强烈抗议,他们说这种方法永远不可能在真实的大脑中发挥作用。最著名的反对者是弗朗西斯 · 克里克(Francis Crick)——因发现 DNA 结构而获诺贝尔奖的神经科学家。1989 年,克里克写道:「就学习过程而言,大脑不太可能真的使用反向传播。」

反向传播被认为在生物学上讲不通,主要有两个原因。第一,虽然计算机可以很容易地将算法分两个阶段实现,但对于生物神经网络来说,这样做并不是一件容易的事。

第二个原因是计算神经科学家所说的权重传输问题:反向算法复制或「传输」推理中涉及的所有突触权重的信息,并更新这些权重以获得更高的精度。但在生物网络中,神经元只看到其他神经元的输出,而看不到形成该输出的突触权重或内部过程。从神经元的角度来看,「知道自己的突触权重是可以的,」亚明斯说。「但知道其他神经元的一组突触权重则是不可能的。」

反向传播的向后阶段

任何生物学上令人信服的学习规则也需要遵守这样的限制——神经元只能从邻近的神经元获取信息,而反向传播则可能需要从更远的神经元获取信息。所以,「如果你真正理解反向传播,其实大脑似乎不可能实现这种方式。」本吉奥说。

尽管如此,辛顿和其他几个人还是立即接受了挑战,致力于研究反向传播在生物学上的合理性。「第一篇论证大脑能做『类似反向传播』的论文和反向传播一样古老,」宾夕法尼亚大学的计算神经科学家康拉德 · 科丁(Konrad Kording)说。

在过去的十几年里,随着人工神经网络的成功,并在人工智能研究中占据了主导地位,人们也越来越热衷于寻找反向传播在生物学上的可能性。

保持更逼真的生命力

以权重传输问题中最奇怪的解决方案之一为例——这是由 DeepMind 的迪莫西 · 利利卡普(Timothy Lillicrap) 和他的同事在 2016 年提供。他们的算法,不是依靠前向传递记录的权重矩阵,而是使用一个矩阵,用随机值初始化后向传递。而权重一旦被分配,这些值永远不会改变,所以每次后向传递都不需要传输权重。

出乎所有人的意料,网络成功了。因为用于推理的前向权重在每次后向传递时都会更新,所以网络仍然在下降损失函数的梯度,但路径不同。前向权重与随机选择的后向权重慢慢「对齐」,最终得出正确答案,该算法因此得名——「反馈对齐」。

「事实证明,实际上,这并不像你想象的那样糟糕,」亚明斯说,「至少对于简单的问题」。当然,对于大规模的问题,以及对于有更多隐藏层的深层网络,反馈对齐的效果并不如反向传播。因为每一次对「前向权重」的更新都不如真正的反向传播信息来得准确,所以这种算法需要更多的数据来训练网络。

研究者们还探索了一些方法来匹配反向传播的性能,同时保持经典的希比安规则要求,即神经元只对其本地邻居做出反应。其实反向传播可以被认为是一组神经元做推理,另一组神经元做更新突触权重的计算。辛顿的想法是去研究一种算法,其中每个神经元都在做两组计算。「这基本上就是辛顿在 2007 年的演讲内容,」本吉奥说。

在辛顿的工作基础上,本吉奥的团队在 2017 年提出了一个新的学习规则,要求神经网络具有循环连接(即如果神经元 A 激活神经元 B,那么神经元 B 反过来激活神经元 A)。如果给这样的网络一些输入,它就会设置「网络复响」(neural network with recurrent connections),因为每个神经元都会对其近邻的推拉做出反应。

最终,网络会达到一个状态,即神经元与输入和彼此之间是平衡的,它产生一个输出,这个输出可能是错误的。然后算法会将输出神经元向所需的结果推移。这就设置了另一个信号在网络中向后传播,掀起类似的动态——网络找到一个新的平衡点。

「数学的美妙之处在于,如果你比较这两个配置,在推敲之前和推敲之后,你已经得到了你需要的所有信息来寻找梯度,」本吉奥说,「训练网络只需要在大量的标记数据上反复重复这个 『平衡传播』的过程。」

预测感知

这种约束——神经元只能通过对其本地环境的反应来学习,也在大脑如何感知的新理论中找到了理论解释。爱丁堡大学的博士生、苏塞克斯大学的访问学者贝伦 · 米利奇(Beren Millidge)和他的同事们一直在协调这种被称为「预测编码」的新观点与「反向传播」的要求。「预测编码,如果以某种方式设置,会给你一个生物学上可信的学习规则,」米利奇说。

预测编码认为,大脑会不断地对感觉输入的原因进行预测。这个预测过程涉及分层的神经处理层,为了产生某种输出,每一层都必须预测下面一层的神经活动。如果最高层期望看到一张脸,它就会预测下面一层的活动。而为了证明这种感知的合理性,下面的一层也会对其更下面的一层的活动做出类似的预测。以此类推,最底层对实际的感觉输入 -- 比如落在视网膜上的光线 -- 做出预测。然后通过这种方式,预测从神经处理层的上层流向下层。

但在层次结构的每一层都可能出现误差——即一个层对它所期望的输入所做的预测与实际输入之间的差异。最底层根据收到的感觉信息,调整其突触权重,以最小化其误差。这种调整会导致新更新的最低层和上面的层之间产生误差,所以更高的层又必须重新调整其突触权重,以最小化其预测误差。这些错误信号会向上波及。这个过程反反复复,直到网络中的每一层都将其预测误差最小化。

米利奇通过研究已经表明,如果设置得当,预测编码网络可以在与反向传播基本相同的学习梯度上收敛。「你可以得到非常,非常,非常接近反向传播的梯度。」

然而,对于传统的反向传播算法在深度神经网络中的每一次后向传递,预测编码网络必须进行多次迭代。这在生物学上是否可信,取决于这个过程在真实大脑中到底需要多长时间。最关键的是,网络必须在外界的输入发生变化之前,收敛得到一个解决方案。

「它不能像『有一只老虎向我跃来,而我的大脑需要上下来回做 100 次迭代再作出反应。』」米利奇说。不过,如果一些不准确的预测,也是可以接受的,预测性编码通常可以很快得出相对有用的答案。

金字塔神经元

一些科学家根据单个神经元的已知特性,进行了建立类似于回溯模型的研究。在生物学上,标准神经元有「树突」,可以从其他神经元的轴突上收集信息。然后树突会将信号传输到神经元的细胞体,在那里信号被整合。然后一个尖峰,或动作电位,可能会发生在神经元的轴突上传到突触后,神经元的树突上。

但并不是所有的神经元都完全具有这种结构。尤其是金字塔神经元 -- 皮层中最丰富的神经元类型 -- 有明显的不同。金字塔神经元有一个树状结构,有两组不同的树突。树干向上延伸,分支成所谓的顶端树突;根部则向下延伸,分支为基底树突。

金字塔神经模型

宾夕法尼亚大学的计算神经科学家康拉德 · 科丁(Konrad Kording)在 2001 年独立开发的模型,以及最近麦吉尔大学和魁北克人工智能研究所的布莱克 · 理查兹(Blake Richards) 及其团队开发的模型都表明,金字塔神经元可以同时进行前向和后向计算,从而构成深度学习网络的基本单元。而关键在于将进入神经元的信号进行前向推理和后向流错(flowing error)的分离,在模型中可以分别由基底和顶端树突处理,这两种信号的信息都可以编码于神经元,在沿其轴突发送的电活动尖峰中作为输出。

「我们已经可以证明,使用相当逼真的神经元模拟,可以训练金字塔神经元的网络来完成各种任务,」理查兹说,「然后使用这些模型的抽象版本,我们可以让金字塔神经元的网络学习『机器学习』中的一些困难任务。」

注意力的作用

对于使用反向传播的深度网络来说,一个隐含的要求是存在一个 「老师」——能够计算神经元网络犯错误的时候。但是,「大脑中并没有老师去告诉运动皮层中的每一个神经元:『你应该打开,你应该关闭』,」阿姆斯特丹荷兰神经科学研究所的彼得 · 罗尔夫斯马(Pieter Roelfsema) 说。

罗尔夫斯马认为大脑解决这个问题的方法是在集中注意力的过程中。20 世纪 90 年代末,他的团队经过实验表明,当猴子将目光固定在一个物体上时,皮层中代表该物体的神经元会变得更加活跃。猴子集中注意力的行为会对负责的神经元产生一个反馈信号。「这是一个高度选择性的反馈信号,」罗尔夫斯马说,「这当然不是一个错误信号,它只是在对所有这些神经元说:『你要对某个动作负责。』」

罗尔夫斯马的见解是,当这种反馈信号与某些其他神经科学发现中所揭示的过程相结合时,可以实现类似于反向传播的作用。例如,剑桥大学的沃尔夫拉姆 · 舒尔茨 (Wolfram Schultz)等人已经证明,当动物执行一个动作,并产生比预期更好的结果时,大脑的多巴胺系统被激活(多巴胺会让动物感到愉悦)。「这种神经调节剂充斥整个大脑,」Roelfsema 说,「多巴胺水平就像一个全局性的强化信号。」

罗尔夫斯马说,理论上,注意力反馈信号可以只激励「那些负责某个动作的神经元」通过更新其突触权重来响应全局强化信号。他的团队利用这个想法建立了一个新的深度神经网络,并研究其数学特性。「事实证明,你会得到错误的反向传播。我们得到了基本相同的方程式,」他说,「但现在这种假设在生物学上变得更加可信了。」

该团队在 12 月的神经信息处理系统在线会议上展示了这项工作。「通过这种办法,我们可以训练深度网络,」罗尔夫斯马说,「它只比反向传播慢了两到三倍,这意味着它击败了所有其他能在生物学上讲得通的算法。」

尽管如此,活体大脑使用这些可信机制的具体经验证据仍然是难以捉摸的。「我认为我们仍然缺少一些东西,」本吉奥说,「根据我的经验,这可能是一件小事,也许是对现有方法之一的一些颠覆性挑战。」

斯坦福大学计算机科学家丹尼尔 · 亚明斯

与此同时,亚明斯和他在斯坦福大学的同事们对如何确定学习规则提出了建议。通过分析 1056 个能实现不同学习模型的人工神经网络,他们发现,可以从大脑神经元子集在一段时间内的活动中确定网络的学习类型,比如通过观察猴子大脑活动获得一些数据。「事实证明,如果你有正确的可观察物,也许可以帮助提出一个相当简单的方案,去识别学习规则。」

鉴于这样的进展,计算神经科学家们还是很乐观的,「大脑有很多不同的方式可以进行反向传播,」科丁说,「而生物进化是如此的神奇,反向传播真的很有用。」

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210224A0BUVJ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券