首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

人类大脑:究竟是不是一台计算机?通过算法来学习?AI找到了答案

虽然深度神经网络是一个获得巨大成功的学习算法,但其在生物大脑中并不适用。研究人员正在寻找其他可能的方法。

研究人员正在通过研究人工深度网络中的算法,对生物神经元网络如何学习的过程有了更多的了解

2007年,深度神经网络背后的一些主要科学家,在人工智能年会期间组织了一次非正式的“卫星”会议。然而,此次会议曾拒绝了他们召开正式研讨会的请求;这是距离深度神经网络——接管人工智能还有几年的时间。这次非正式会议的最后一位发言人是多伦多大学的杰弗里·辛顿(Geoffrey Hinton),他是认知心理学家和计算机科学家,负责深网领域的一些重大突破。他以一句俏皮话开始:"大约一年前,我回家吃晚饭的时候,我对家里人说'我想我终于弄明白了大脑的工作原理' 。而我15岁的女儿调侃道,'别了老爸,别再这样了,你都说了这句话快10年了'。"

观众们都笑了起来。辛顿(Hinton)继续说:"你看,这就是她的工作原理。(我已经明白她会这么说)" 更多的笑声接踵而至。

辛顿(Hinton)的这一笑话掩盖了一个严肃的理想目标:用人工智能(AI)来理解大脑。如今,深网统治了人工智能,其部分原因是由于一种叫做反向传播(backpropagation)的算法,或称backprop的算法。该算法使深网能够从数据中学习,赋予它们分类图像、识别语音、翻译语言、理解自动驾驶汽车的路况,以及完成其他一系列任务的能力。

但真正的大脑不太可能依赖于相同的算法。蒙特利尔大学的计算机科学家、魁北克人工智能研究所的科学主任、2007年研讨会的组织者之一约书亚·本吉奥(Yoshua Bengio)认为,这不仅仅是因为 "大脑能够比最先进的人工智能系统,更好更快地进行概括和学习"。由于各种原因,反向传播算法(Backpropagation)与大脑的解剖学和生理学不兼容,特别是在大脑皮层方面。

多伦多大学的认知心理学家和计算机科学家杰弗里·辛顿(Geoffrey Hinton)负责深度神经网络技术的一些重大突破,包括反向传播的发展。

本吉奥(Bengio)和许多其他受辛顿(Hinton)启发的人一直在思考更具生物学意义的学习机制,至少可以与反向传播的成功相匹配。其中就有三种——反馈对齐、平衡传播和预测编码,已经显示出特别广阔的应用前景。一些研究人员还将某些类型的大脑皮质神经元和注意力等过程的特性纳入其模型中。所有这些努力都使我们更接近于理解可能在大脑中起作用的算法。

"大脑是一个巨大的谜团。人们普遍认为,如果我们能够解开它的一些原理,它可能对人工智能有所帮助。"本吉奥(Bengio)说,"但它本身也极具价值。"

通过反向传播算法(Backpropagation)进行学习

几十年来,神经科学家关于大脑如何学习的理论,主要是以加拿大心理学家唐纳德·赫布(Donald Hebb)在1949年提出的一条规则为指导——这条规则通常被解释为 "神经元一起发射,就会相互连接"。也就是说,相邻神经元的活动关联性越大,它们之间的突触连接就越强。这一原则,经过一些修改,成功地解释了某些有限类型的学习和视觉分类任务。

但对于那些必须从错误中学习的大型神经元网络来说,它的效果就差得多了;对于网络深处的神经元来说,没有直接针对性的方法来学习发现的错误,更新自己并减少犯错。斯坦福大学的计算神经学家和计算机科学家丹尼尔·亚明斯(Daniel Yamins)认为:“赫布理论是一种非常狭隘、特殊且不太敏感的错误信息使用方式。

尽管如此,它仍是神经科学家所使用中最好的学习规则,甚至在它主导神经科学之前,它就启发了20世纪50年代末第一批人工神经网络的发展。这些网络中的每个人工神经元都会接收多个输入,并产生一个输出,就像它的生物对应物一样。神经元将每个输入乘以一个所谓的“突触”权重(一个表示该输入重要性的数字),然后将加权输入相加。这个总和就是神经元的输出。到了20世纪60年代,人们清楚地看到,这种神经元可以组织成一个具有输入层和输出层的网络,并且可以训练人工神经网络来解决某一类简单的问题。在训练过程中,神经网络为其神经元确定了最佳的权重,以消除或减少错误。

然而,即使在20世纪60年代,解决更复杂的问题——显然需要一个或多个 "隐藏 "层的神经元夹在输入层和输出层之间。没有人知道如何有效地训练具有隐藏层的人工神经网络——直到1986年,辛顿(Hinton)、已故的大卫·鲁梅尔哈特(David Rumelhart)和罗纳德·威廉姆斯(Ronald Williams,现就职于美国东北大学)发表了反向传播算法(Backpropagation)。

该算法分两个工作阶段。在 "向前 "阶段(forward phase),当网络得到一个输入时,它推断出一个输出,但这个输出可能是错误的。第二个 "向后 "阶段(backward   phase)更新突触权重,使输出更符合目标值。

为了理解这个过程,可以考虑一个 "损失函数",它描述了作为丘陵和山谷景观的推断输出和期望输出之间的差异。当一个网络用一组给定的突触权重进行推理时,它最终会在损失景观的某个位置。为了学习,它需要沿着斜坡或梯度向某个山谷移动,在那里损失尽可能地最小化。反传播算法就是一种更新突触权重以降低梯度的方法。

为什么称为反向传播算法?

从本质上讲,算法的后向阶段计算每个神经元的突触权重对误差的贡献有多大,然后更新这些权重以提高网络的性能。这种计算从输出层到输入层依次向后进行,因此被称为反向传播。对于输入和期望输出的集合反复进行这种操作,最终你会得出整个神经网络可以接受的权重集。

对大脑来说,这种算法是不可能实现的

反向传播算法的发明立即引起了一些神经科学家的强烈抗议,他们说这种方法永远不可能在真实的大脑中发挥作用。最著名的反对者是弗朗西斯·克里克(Francis Crick),这位获得诺贝尔奖的DNA结构的共同发现者,后来成为一名神经科学家。1989年,克里克写道:"就学习过程而言,大脑实际上不太可能使用反向传播算法。"

反向传播算法被认为在生物学上是不可信的,主要有几个原因。首先,虽然计算机可以很容易地分两个阶段实现该算法,但对生物神经网络来说,这样做并不简单。第二个原因是,计算神经科学家所说的权重传输问题:反向传播算法复制或 "传输 "有关推理中涉及的所有突触权重的信息,并更新这些权重以获得更高的准确性。但在生物网络中,神经元只看到其他神经元的输出,而看不到形成该输出的突触权重或内部过程。从神经元的角度来看,"知道自己的突触权重是可以的。"亚明斯(Yamins)说,"真正不可行的是,你要知道其他神经元的一组突触权重。"

任何生物学上可信的学习规则,也需要遵守这样的限制:神经元只能从邻近的神经元获取信息;反向传播算法可能需要从更远的神经元获取信息。所以,"如果你把反向传播算法看得很透彻,大脑似乎不可能计算出来。"本吉奥(Bengio)说

尽管如此,辛顿(Hinton)和其他几个人还是立即接受了挑战,致力于研究反向传播的生物学上合理的变化。"第一篇论证大脑会做(类似于)反向传播的事情的论文大约和反向传播本身一样古老。"宾夕法尼亚大学的计算神经科学家康拉德·科丁(Konrad Kording)说。在过去的十几年里,随着人工神经网络的成功,使其在人工智能研究中占据了主导地位,为反向传播寻找生物等价物的努力也在加强。

保持更逼真的生命力

以权重传输问题最奇怪的解决方案之一为例——由伦敦谷歌DeepMind的蒂莫西·利利克拉普(Timothy Lillicrap)和他的同事在2016年提供。他们的算法,不是依靠前向传递记录的权重矩阵,而是使用一个用随机值初始化后向传递的矩阵。一旦分配,这些值永远不会改变,所以每次向后传递都不需要传输权重。

令几乎所有人惊讶的是向,这一神经网络AI尽然学会了。因为用于推理的前向权重在每次后向传递时都会更新,所以神经网络仍然在下降损失函数的梯度,但路径不同。前向权重与随机选择的后向权重值慢慢对齐,最终得出正确答案,该算法因此得名:反馈对齐算法。

"事实证明,实际上,这并不像你想象的那样糟糕。"亚明斯(Yamins)说——至少对于简单的问题是这样。对于大规模的问题,以及对于有更多隐藏层的深层网络,反馈对齐的效果不如反向传播算法。因为每一次对前向权重的更新,都不如真正的反向传播信息准确,所以需要更多的数据来训练网络。

蒙特利尔大学(universityofmontreal)的人工智能研究员和计算机科学家约书亚·本吉奥(Yoshua Bengio)是寻求学习算法的科学家之一,这些算法与反向传播(backpropagation)一样有效,但在生物学上更可信。

研究人员还探索了如何匹配反向传播算法的性能,同时保持经典的赫布理论(Hebbian)学习要求,即神经元只对其局部邻居作出反应。反向传播算法(Backprop)可以被认为是一组神经元进行推理,另一组神经元进行更新突触权重的计算。辛顿(Hinton)的想法是研究算法,每个神经元同时进行两组计算。“这基本上就是杰夫(Geoff)2007年演讲内容的复刻。”本吉奥(Bengio)说。

在辛顿(Hinton)工作的基础上,本吉奥(Bengio)的团队在2017年提出了一个学习规则,需要一个具有循环连接的神经网络(即如果神经元A激活神经元B,那么神经元B反过来激活神经元A)。如果这样一个网络被给予一些输入,它会使网络产生回响,因为每个神经元都会对其近邻的推拉做出反应。

最终,网络达到一种状态,在这种状态下,神经元与输入和彼此处于平衡状态,并产生一个输出,但这个输出可能是错误的。然后,算法会将输出神经元向所需的结果推移。这使得另一个信号通过网络反向传播,引发类似的动态。网络找到了一个新的平衡点。

数学的美妙之处在于,如果你比较这两种配置,在轻推之前和之后,你已经得到了你需要的所有信息来寻找梯度。”本吉奥(Bengio)说。训练网络只需要在大量的标记数据上重复这个 "平衡传播 "的过程。

预测感知

神经元只能通过对其本地环境做出反应来学习的约束,也在大脑感知的新理论中得到了体现。贝伦·米里奇( Beren Millidge)是爱丁堡大学的博士生,也是萨塞克斯大学的访问学者,他和他的同事们一直在调和这种新的感知观点——所谓的预测编码,和反向传播的要求。米里奇(Millidge)认为:“如果预测编码,是以某种方式建立起来的,它将为你提供一个生物学上合理的学习规则。

预测编码认为,大脑不断地对感觉输入的原因做出预测。这个过程涉及分层的神经处理层。为了产生某种输出,每一层都必须预测下面一层的神经活动。如果最高层期望看到一张脸,它就会预测下面一层的活动,可以证明这种感知的合理性。下面的一层也会对其下面的一层的预期做出类似的预测,以此类推。最底层预测实际的感觉输入——比如说,落在视网膜上的光子。通过这种方式,预测从上层流向下层。

赫布理论(Hebbian)是一种非常狭隘的、特殊的、不是很敏感的使用误差信息的方式。——丹尼尔·亚明斯(Daniel Yamins),斯坦福大学

但在层次结构的每一层都可能出现误差:一个层对它所期望的输入所做的预测与实际输入之间的差异。最底层根据收到的感觉信息,调整其突触权重,以最小化其误差。这种调整会导致新更新的最低层和上面的层之间产生误差,所以更高的层必须重新调整其突触权重,以最小化其预测误差。这些错误信号会向上波及。网络反反复复移动,直到每一层都将其预测误差最小化。

米里奇(Millidge)已经证明,如果设置得当,预测编码网络可以在与反向传播算法基本相同的学习梯度上收敛。他说:“你可以非常,非常,非常接近反向传播算法的梯度。“

然而,对于传统的反向传播算法在深度神经网络中进行的每一次向后传递,预测编码网络都需要多次迭代。这在生物学上是否合理,取决于这在真实大脑中可能需要多长时间。最关键的是,网络必须在外部世界的输入发生变化之前,收敛到一个解决方案。

米里奇(Millidge)说:“这不可能是‘我有一只老虎在向我扑来,让我在大脑上下来回做100次迭代。’”。尽管如此,他认为i,如果一些不准确是可以接受的,预测编码可以很快得到普遍有用的答案。

金字塔神经元

一些科学家根据单个神经元的已知特性,开始着手建立类似于反向传播算法的细枝末节的工作。标准神经元有树突,可以从其他神经元的轴突上收集信息。树突将信号传输到神经元的细胞体,在那里信号被整合。这可能会或可能不会导致一个尖峰,或动作电位,在神经元的轴突上传到突触后神经元的树突上。

但并不是所有的神经元都完全具有这种结构。尤其是金字塔神经元——皮层中最丰富的神经元类型,有明显的不同。金字塔神经元——有一个树状结构,有两组不同的树突。树干向上延伸,分支成所谓的顶端树突。根部向下延伸,分支为基底树突。

科丁(Kording)在2001年独立开发的模型,以及最近麦吉尔大学和魁北克人工智能研究所的布莱克·理查兹(Blake Richards)及其同事开发的模型都表明,金字塔神经元可以同时进行前向和后向计算,从而构成深度学习网络的基本单元。关键在于将进入神经元的信号进行前向推理和后向流错的分离,在模型中可以分别由基底和顶端树突处理。这两种信号的信息都可以编码在神经元作为输出沿其轴突发送的电活动尖峰中。

在理查兹(Richards)团队的最新研究中,"我们已经到了可以证明的地步,我们可以证明,通过相当逼真的神经元模拟,你可以训练锥体神经元网络来完成各种任务。"理查兹(Richards)说,"然后,使用这些模型的略微抽象一点的版本,我们可以让金字塔神经元的网络学习人们在机器学习中的那种困难任务。"

注意力的作用

对于使用反向传播算法的深度网络来说,一个隐含的要求是存在一个 "老师":可以计算神经元网络产生的错误的东西。但是,阿姆斯特丹荷兰神经科学研究所的彼得·罗尔夫塞马(Pieter Roelfsema)说:“大脑中没有一个老师会告诉运动皮层的每一个神经元,‘你应该被打开,你应该被关闭。’”。

斯坦福大学的计算神经学家和计算机科学家丹尼尔·亚明斯(danielyamins)正在研究如何识别哪些算法在生物大脑中最为活跃的。

罗尔夫塞马(Roelfsema)认为大脑解决这个问题的方法是在注意的过程中。在20世纪90年代末,他和他的同事们发现,当猴子将目光固定在一个物体上时,皮层中代表该物体的神经元会变得更加活跃。猴子集中注意力的行为会对负责的神经元产生一个反馈信号。"这是一个高度选择性的反馈信号。这不是一个错误信号。它只是对所有这些神经元说:你要为一个行为负责。"

罗尔夫塞马(Roelfsema)的见解是,当这种反馈信号与某些其他神经科学发现中所揭示的过程相结合时,可以实现类似于背道具的学习。例如,剑桥大学的沃尔夫拉姆·舒尔茨(Wolfram Schultz)等人已经证明,当动物执行的动作产生比预期更好的结果时,大脑的多巴胺系统被激活。"它用神经调节剂充斥整个大脑。”罗尔夫塞马(Roelfsema)说。多巴胺水平就像一个全局性的强化信号。

理论上,注意力反馈信号可以只刺激那些负责某个动作的神经元,通过更新它们的突触权重来响应全局强化信号。罗尔夫塞马(Roelfsema)和他的同事们利用这个想法建立了一个一个深层次的神经网络,并研究了它的数学特性。"事实证明,你会得到错误的反向传播算法。你得到的方程基本上是一样的。但现在这在生物学上变得有道理了。"

该团队在去年12月的神经信息处理系统在线会议上展示了这项工作。罗尔夫塞马(Roelfsema)表示:"我们可以训练深度网络,它只比反向传播慢了两到三倍。 因此,它击败了所有其他已经提出的生物可信的算法。"

尽管如此,活体大脑使用这些可信机制的具体经验证据仍然难以捉摸。本吉奥(Bengio)说:"我想我们还缺少一些东西。以我的经验,这可能是一件小事,也许对现有的一种方法稍加改动,那将真正起到作用。"

与此同时,亚明斯(Yamins)和他在斯坦福大学的同事们,对如何确定哪种学习规则是正确的提出了建议。通过分析1,056个实现不同学习模型的人工神经网络,他们发现,控制网络的学习规则的类型可以从神经元子集随时间的活动中识别出来。这种信息有可能是从猴脑中记录下来的。亚明斯说:“事实证明,如果你收集了正确的观察数据,就有可能提出一个相当简单的方案,让你能够识别学习规则。”。

鉴于这些进步,计算神经科学家们悄然乐观。科丁(Kording)认为:"大脑有很多不同的方式可以进行反向传播。而进化真是太棒了,这使得反向传播算法变得很有用。我推测,进化论会把我们带到最终目的地。"

GolevkaTech——专注于分享最新的能源、材料、人工智能领域最新咨询与观点

撰写:GolevkaTech

重要声明:此处所发表的图文和视频均为作者的原创稿件,版权归原创作者所拥有。所刊发的图片和视频作品,除特别标注外,均视为图文作者和被拍摄者默认此版权之归属权。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210228A05OTX00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券