下一次AI的大突破,一直直觉或许灵感还会源于生物细胞。
AI 的神经元比生物神经元简单的多,不过改进的方向不一定是变得更复杂。有可能只是从其中一部分得到启发。
如同飞机模仿了鸟类的飞行,但并非直接复制一样。
关键在于对细胞的底层机制的理解,比如干细胞的再生能力,又比如神经元活动如何导致学习和记忆。
这些问题的破解,既能从根本上帮助治愈那些细胞功能异常引起的疾病,其中大部分目前基本无解;又能启迪新一代的智能系统。
我的前同事们在这些方向做了不少杰出的成果,未来有机会再拿一个诺奖。
后来虽然我离开了这个领域,但偶尔也会关注下新的进展。下面是最近看的一篇很有意思的文章。Enjoy
作者:Javier Ideami 编译:McGL
最近的神经科学研究成果,指引我们走向战胜对抗样本,并实现一种更具弹性、一致性和灵活性的人工智能形式。
注:本文所有的配图皆为作者 Javier Ideami 本人所画
对抗样本(Adversarial examples) 是当前深度学习研究的热点问题。数据中细微的、往往看不见的变化 可能会让我们的网络犯下可怕的错误。作为人类,我们似乎对这些感官输入的干扰的适应性/弹性(resilient)强得多(虽然也不是完全免疫)。
我们的深度学习系统中有一个特定的模式。它们取得了非凡的成就,但有时也很脆弱。就像暴风雨中坚硬的树木,它们看起来高大壮观,但随时可能毫无预警地裂开。为什么会发生这种情况,我们如何才能改善呢?
通过神经科学(neuroscience)领域的新研究,一些清晰的观点开始显现出来。在本文中,我们将对其进行探讨。
最近我看了一本新书,毫无疑问是令人愉悦的杰作。这是科学家兼企业家 Jeff Hawkins 的新作,名叫 《一千个大脑: 智力的新理论》(a Thousand Brains: a New Theory of Intelligence),书中剖析了他的团队对新皮层(neocortex)所做的最新研究。新皮层是我们大脑的一部分,占大脑体积的 70% ,负责我们的高级智力。(另外 30% 被更古老、更原始的大脑部分所占据)。
在一段引人入胜的旅程中,Jeff Hawkins 带我们深入到我们智力的中心。他分享了:
Vernon Mountcastle 是美国著名的神经生理学家,也是约翰·霍普金斯(Johns Hopkins)大学的神经科学名誉教授。他是大脑皮层(cortex)柱状(columnar)结构的发现者。他提出,通过进化,我们的新皮层基本上是通过反复复制同样的东西——同样的基本回路而变得更大。
当我在 Jeff 的书中读到 Mountcastle 的想法时,我想起了伟大的科学家 Robert Sapolsky 的一次有趣的演讲。在回答是什么把我们和黑猩猩区别开来的问题时(https://www.youtube.com/watch?v=AzDLkPFjev4),Sapolsky 解释说,黑猩猩和人类之间基因表达的差异大约有一半与编码嗅觉感受器(olfactory receptors)的基因有关,其他的差异则与骨盆拱的大小、体毛的数量、免疫系统识别能力、生殖隔离的某些方面等有关; 这些差异解释了黑猩猩和人类之间几乎所有的基因差异。那么,与人类大脑相关的基因的差异在哪里呢? Sapolsky 解释说,几乎没有这样的基因,只有少数几个基因与胎儿大脑发育过程中的细胞分裂周期有关。 基本上,我们的神经元数量是黑猩猩的3倍。 这种规模上的差异似乎是我们高等智力的关键。
这和 Mountcastle 的想法很吻合,即单个回路可以被多次复制(容量很重要,但是仅仅容量是否足够将今天的深度学习系统推向 AGI?让我们下面继续探索)。
我们大脑新皮层的所有部分 都基于相似的原则(principle),基于相同的基本回路,这符合我们的大脑在不同情景下所表现出的灵活性。如果是容量问题,是否意味着 GPT-11 可以让我们更接近 AGI?
不幸的是,事情并没有那么简单。因为房间里有一头巨大的大象(elephant in the room),Jeff 在他的书和理论中阐明了这一点。一个我们已经忽略太久的问题。
在我们去拜访这个房间里的大象之前,让我们先聊一下背景。根据科学家的研究,我们的大脑新皮层中有大约150000个皮层柱/列。 Jeff 告诉我们,我们可以把这些列想象成细细的意大利面条。所以,想象一下150000根细细的意大利面一根挨着一根。
这些皮质列内部到底在干些什么?在过去的几年里,科学家们已经认识到大脑是一个预测机器(predictive machine)。它生成了一个世界的模型,并不断预测接下来会发生什么。
当我们的大脑的预测不正确时,我们意识到有些东西是不正确的,于是我们的大脑更新了它的世界模型。随着时间的推移,我们的世界模型变得更加丰富和复杂。
所以在某种程度上,我们确实生活在一个模拟(simulation)中。因为我们感知到的实际上是大脑构建的模型,而不是外面的“现实”。这解释了幻肢(phantom limbs)和其他类似的情况。
Jeff Hawkins 指出,我们的大脑通过关注它接收到的输入信息如何随着我们的移动(或者这些输入信息的移动)而变化来学习世界的模型。这就把我们带到了之前提到的房间里的大象。
世界在不断地变化。所有东西都在移动/变动。随着事物的变动和变化,我们的大脑不断更新我们的世界模型(我们很快就会看到许许多多的模型) ,这是有道理的。
正如近年来注意力(attention)机制已经彻底改变了深度学习领域一样,注意力也是我们大脑如何学习这些模型的关键。
但是如果我们的大脑新皮层不断地做出大量的预测,并且调整它的模型和它所感知到的东西之间的任何偏差,为什么我们没有注意到所有这些预测,而是感知到一个连续的现实?让我们一步一步来说明。
通过他们的最新研究,Jeff 和他的团队得出了一些有趣的见解:
请注意,运动(movement) 的概念开始无处不在。运动和系统的动态本质是房间里的大象。我们很快就会讨论这与对抗样本以及当今深度学习的局限性之间的联系。
所以,这一切都是关于参考坐标系或者说地图,物理空间的地图,概念的地图,任何东西的地图。Jeff 告诉我们,旧大脑中的参考坐标系是学习不同环境的地图,同样,新大脑皮层中的参考坐标系是学习物体的地图(在他们所谓的“什么”列中) ,或者是物体周围的空间(在列的“哪里”) ,又或者是非感官列中概念的地图。
我很喜欢 Jeff 使用的比喻,为了成为任何领域的专家,我们需要找到一个好的方法来组织我们关于这个领域的知识,我们需要在内部创建一个伟大的参考框架或领域地图。想想那些深奥而复杂的参考坐标系,例如,达芬奇或爱因斯坦为了在各自的专业领域中出类拔萃而拥有的参考框架。
好的,我们的150000个皮质列中的每一个都在学习一个关于这个世界的预测模型,因为它关注的是输入信息随时间的变化。每个列都学习大量元素、物体、概念等的建模。
所以我们对任何事物(物体或概念)的知识,都是分布在成千上万的皮层列中的,分布在成千上万的互补模型中。这与 Jeff 理论的名字有关(一千个大脑)。
所有这些都与我们大脑的灵活性有关。我们的大脑皮层并不依赖于某一列。知识分布在数以千计的列中。因此,即使受伤损坏了一组列,大脑仍然能继续工作(在学术文献中有很多这方面的例子)。
接下来要考虑的问题是: 如果每次运动发生时,大脑都在创造新的预测,那么这些预测存储在哪里呢?
Jeff 和他的团队提出,发生在神经元(neuron)中不同树突(dendrites)上的刺突(spikes)是预测,其中树突是神经元中的分支,通过突触(synapses)接收信息。树突上的刺突将连接它们的细胞(cell)置于 Jeff 所谓的预测状态(predictive state)。因此,预测发生在神经元内部。这些预测改变了神经元的电特性,使其比其他情况下更快地被激活,但是这些预测并没有通过轴突(axon)传递给其他神经元,这就解释了为什么我们没有意识到其中的大部分。现在的问题是: 我们如何确定一个具体的预测?
我们对现实的感知是投票过程的结果。不同的皮层列通过投票达成共识,这就产生了一个单一的感知,统一了来自系统不同部分的不同预测(这也可能与多种类型的感官输入有关)。
只有一部分细胞需要投票,这些细胞代表了比如我们感知的特定对象。他们如何投票呢?
我们大脑皮层列中的大部分连接都在新皮层的不同层上下方向运动。但也有例外。科学家们发现,有些细胞通过大脑新皮层左右发送轴突(输出连接)。Jeff 和他的团队提出,这些具有长距离连接的细胞负责投票。
当我们识别一个物体时,我们的大脑皮层列已经对我们所看到的物体达成了共识。我们每个列中的投票细胞(神经元)构成一个稳定的模式,代表了物体以及物体相对于我们的位置。
只要我们继续感知同一个物体,当我们继续与那个元素互动时,那些投票神经元的状态就不会改变。其他的神经元会随着我们的移动或者物体的移动而改变他们的状态,但是投票神经元会保持稳定。
这就是为什么我们的感知是稳定的,我们没有意识到与正在发生的移动预测相关的一系列活动。我们只是意识到正在投票的小组所达成的协商一致意见所产生的最终的稳定模式。
因此:
现在是时候回到对抗样本(adversarial examples)和深度学习领域了。
人类对于对抗样本也不是免疫的。感官输入的扰乱会使我们感到困惑,使我们误解事物。我们大多数人都看过各种各样的视觉错觉(optical illusions)图。然而,总的来说,我们的感知是一致的,并且相当有弹性,当然比我们在今天的深度学习系统中发现的更加一致,深度学习中看不见的变化可以彻底破坏我们的结果。
这种弹性(resiliency)、一致性(consistency)和灵活性(flexibility)背后的原因是什么? 不管它是什么,它可能包括以下几点:
因此,深度学习中对抗样本的“终结”,我所说的“终结”并不是指绝对的终结,只是达到一定弹性、一致性和灵活性的水平,类似于我们作为人类所拥有的水平,将有可能通过以下组合实现:
研究检测对抗样本的新方法是一个有趣的领域,有许多学术活动。现在缺少的是对我们的深度学习架构和系统的重新思考,从当前的静态范式过渡到基于多模态、多模型、基于共识的预测系统的动态范式,这些系统具有弹性、一致性和灵活性。当我们做到这一点时,我们将能够隐藏或扰乱我们系统的某些部分,但仍然保持稳定的预测。
正如 Jeff 指出的那样,随着我们试图将人工智能系统应用于需要大量灵活性和弹性的场景,这将变得越来越重要。
Mountcastle 的想法,Sapolsky 的思想,以及我们对 GPT 架构的着迷,所有这些都表明了容量的重要性。数量很重要。拥有3倍多的神经元,或同一个基本回路的数千个副本,或数千亿个参数而不是10亿个,所有这些都很重要。
这对于深度学习领域的现状来说是个好消息。对于 GPT 系统这样的项目,我们正在发现并确认这个事实,这个容量很重要。
但是,我们也开始意识到,尽管容量很重要,但它不足以带我们去我们想去的地方。
如果你在一系列的播客和会议中关注最新的关于 GPT-3 系统的对话,你会听到类似的结论。GPT-3 令人印象非常深刻,但它也很脆弱,往往感觉像一种入侵式修改(hack)。这与人类大脑的弹性和灵活性无关。
容量很重要。但是运动也是。我们不能仅仅通过数量来逃避运动和变化。世界就像一场永不停息的风暴。
我们是一棵静止的树,越来越大,但是却一次又一次地断裂,因为它缺乏随着风暴移动的能力。
思考就是运动。通过参考坐标系运动。通过一致性机制统一成千上万的预测和模型。
运动即是前进的道路。
后记: Pedro Domingos 在他的《The Master Algorithm》 一书中写到了与深度学习相关的不同范式: 符号学(symbolists)、连接学(connectionists)、进化学(evolutionaries)、贝叶斯学(bayesians)和类比学(analogizers)。很明显,通往通用人工智能(AGI)的道路可以有很多不同的路线和方法组合。至于 Jeff 和他的团队的工作和理论,正如 Kenneth Stanley 教授所说,我正在追随一种有趣性的梯度(对于杰夫的工作来说这种梯度相当强大)。在我看来,Jeff 的理论和工作(以及他的才华横溢的团队)可以为我们打下非常有趣和有用的基石,让我们更接近 AGI (或者至少他们的研究可以指引我们走向那些基石)。所以,是的,我们可以通过很多不同的方式到达 AGI,但是到目前为止,我们所知道的唯一一个具有足够弹性和灵活性的智能系统是我们肩膀上的那个。因此,深入探索来自神经科学的最新研究可能会为我们指明通往 AGI 之路上有用的基石,这非常有意义。
原文: https://towardsdatascience.com/towards-the-end-of-deep-learning-and-the-beginning-of-agi-d214d222c4cb