首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

The Brain vs Deep Learning(五)

--深度学习真的能模拟大脑吗?

Estimation of cerebellar input/output dimensions

小脑颗粒神经元通常接收来自约四个轴突(大多数情况下来自皮层的连接)的输入。 每个轴突与颗粒神经元的树突爪形成约3-4个突触(树突结束形状,如果你将在你的手中持有一个网球),所以总共约15个输入通过突触到颗粒神经元。颗粒神经元本身结束于T形轴突,其直接穿过Purkinje神经元的树突,其与其形成约100个突触。Purkinje神经元接收来自约100000个与颗粒神经元连接的输入,并且它们自己在深核中形成约1000个连接。有估计是高得多,没有准确的数字突触的数量存在,据我所知。 100000突触的数量可能是一个轻微的高估(但75000会太保守),但我使用它会使得数学更简单。

所有这些维度是如上所述的时间维度的乘积,使得例如粒度神经元的输入具有15×5的维数。因此,我们可以终于可以计算小脑颗粒神经元与浦肯野神经元一起的复杂性。

So my estimate would be 1.075×10^21FLOPS for the brain, the fastest computer on earth as of July 2013 has 0.58×10^15 FLOPS for practical application (more about this below).

Part III: Limitations and criticism

虽然我讨论了大脑是如何类似于深度学习,但我没有讨论大脑是如何不同的。 一个巨大的差异是大脑中的dropout相对于所有输入工作,而卷积网络中的dropout相对于每个单个单元工作。 大脑在做什么在深层学习中没有意义; 然而,如果你想到将数百万卷积网络彼此组合,那么做大脑做的很有意义。大脑的dropout当然会很好地工作以使神经元的活动彼此分离,因为没有神经元可以依赖于来自单个其他神经元的信息(因为它可能被丢弃),使得它被迫考虑所有与其连接的神经元,从而消除偏置(其基本上是正则化)。

模型的另一个限制是它是一个下限。 这项估计并未考虑:

  • Backpropagation, i.e. signals that travel from the soma to the dendrites; the action potential is reflected within the axon and travels backwards (these two things may almost double the complexity)
  • Axon terminal information processing
  • Multi-neurotransmitter vesicles (can be thought of multiple output channels or filters, just as an image has multiple colors)
  • Geometrical shape of the dendritic tree
  • Dendritic spine information processing
  • Non-axodendritic synapses (axon-axon and axon-soma connections)
  • Electrical synapses
  • Neurotransmitter induced protein activation and signaling
  • Neurotransmitter induced gene regulation
  • Voltage induced (dendritic spikes and backpropagating signals) gene regulation
  • Voltage induced protein activation and signaling
  • Glia cells (besides having an extremely abnormal brain (about one in a billion), Einstein also had abnormally high levels of glia cells)

所有这些东西已被证明对大脑中的信息处理是重要的。 我没有把它们包括在我的估计,因为这将使一切:

  • Too complex: What I have discussed so far is extremely simple if you compare that to the vastness and complexity of biological information processing
  • Too special: Non-axodendritic synapses can have unique information processing algorithms completely different from everything listed here, e.g. direct electrical communication between a neighboring bundle of neurons
  • And/or evidence is lacking to create a reliable mathematical model: Neural backpropagation, geometry of the dendritic trees, and dendritic spines

记住这些估计是针对整个大脑的。 当它们积极地处理刺激时,局部脑区域可以具有比该平均值更高的计算处理速度。 还要记住,小脑几乎所有的计算处理。其他脑区域整合小脑的知识,但小脑作为几乎所有的信息在大脑(除了视觉和听力)的转换和抽象模块。

But wait, but we can do all this with much lesscomputational power! We already have super-human performance in computervision!

人类没有标记事物的视觉系统。尝试在真实世界中列出1000个常见物理对象,然而这不是一个容易的任务。

对于我们是无法识别一个对象的,人类是觉得我们看到了一个对象,但是不能理解它。 如果你忘了一个老同学的名字,这并不意味着你不认识她,只是意味着你忘了她的名字。现在想象你在一个火车站下车,你知道一个好朋友正在静止的某个地方等你。 你看到有人在300米外挥舞着他们的手,那是谁在看你呢 - 这是你的朋友吗? 你不知道; 你不能识别是否是她。 这是纯粹的标签和对象识别之间的区别。现在你不能识别30×30像素图像中的东西,但计算机可以,也不一定意味着计算机具有超人的对象识别性能。这只是意味着您的视觉系统不能很好地理解像素信息。我们的眼睛只是不习惯这个。

现在看窗外面,尝试着标记所有你看到的东西。这很容易,但对于某些事情,你不知道正确的标签!例如,我不知道我看到的窗外的几棵植物的名字。然而,我们完全知道它是什么。我们看到并可以命名带着许多细节的对象。例如,通过评估它们的外观,我知道很多关于未知植物需要多少水和阳光,它们生长多快,它们是老的或年轻的标本,它们生长的方式;我知道他们如何感觉如果我触摸他们 - 或更一般地 - 我知道这些植物如何生长为一个生物,如何生产能量等等。我可以做到所有这一切,而不知道它的名字。当前的深度学习系统不能这样做,并且在相当一段时间内不会这样做。计算机视觉的人类水平上的表现确实很遥远!我们只是刚刚达到了第一步(对象识别),现在的任务是使计算机视觉更聪明,而不是使它很好的给东西打标签。

从进化上讲,我们视觉系统的主要功能与命名我们所看到的东西毫无关系:狩猎和避免被猎杀,在觅食期间定向,确保我们选择正确的浆果和有效地提取(extract)根 - 这些都是重要的功能,但可能我们实现的最重要的功能之一是群体或关系中的社会功能。与在静态2D表面上人的图像进行通信和面对面交流的感觉也是非常不同的。视觉是沟通的关键。

我们的深度学习不能有效地做到这一点

Making sense of a world without labels

一个惊人的例子也展示了真正了解环境的视觉的力量而不需要任何标签,这就是Genie的情况。 Genie被绑在某个地方,在20个月的时候就在房间里。 她12年后被发现严重营养不良。 在这段时间她几乎没有社交互动,因此没有获得任何形式的口头语言。一旦她接触了其他人类,她被教授英语作为一种语言(后来也是手语),但她从来没有真正掌握它。相反,她很快掌握非口语语言。

对于陌生人,她几乎完全用非口语语言沟通。 有些情况下,这些陌生人会停在他们的位置,把一切留在后面,走到她身边,给她一个玩具或另一个项目 - 该项目总是被称为是喜欢和渴望的东西。在一个例子中,一个女人在交叉路口的停车灯下离开她的汽车,清空她的钱包,并把它交给Genie。 女人和Genie没有交换一个字; 他们完全是非口头地相互理解。

所以Genie做的是,用她的视觉系统发现线索,并将那个女人的情感和认知状态翻译成非口语提示和动作,然后她用它来改变女人的精神状态。反过来,女人会希望把钱包给Genie(Genie可能根本看不到)。显然,Genie在非口语交流方面是非常特殊的 - 但是如果你把她对准一个深度学习对象识别系统,会发生什么呢?在你选择的任何数据集上,深度学习系统将比Genie好得多。 你可以公平地说,卷积网在物体识别方面比Genie更好吗? 我不这么认为。这显示了我们在计算机视觉方法的原始和朴素。 对象识别是人类视觉的一部分,但它不是例外。

Can we do with less computational power?

“我们不需要像大脑那样多的计算能力,因为我们的算法比大脑更好。”我希望你能在读完这篇博客的描述后,发现这个说法是相当傲慢的。我们不知道大脑是如何学习的。我们不了解大脑中的信息处理细节。 但是我们敢说我们能做得更好吗?即使我们知道大脑如何工作的所有细节,但仍然认为我们创建的一般智力仍然相当幼稚。 大脑通过进化发展了数亿年。进化!人类皮层在过去20000年收缩约10%,人类大脑迅速适应了我们使用语言的许多方式。

并且每个动物脑中的神经元的数量几乎恰好是它可以维持的量(我们可能在大约20000年前杀死了猛犸象的大多数)。我们人类有这么大的大脑,因为我们发明了火和烹饪,我们可以准备食物,使得我们维持更多的神经元。没有烹饪,卡路里的摄取量不会高到足以维持我们的大脑,我们将无助地饥饿(至少在几千年前;现在你可以容易地生活在一个原始的素食饮食环境中 - 只要走进超市,买很多的高热量密度食物)。由于这一事实,很可能脑部被彻底优化以产生相应物种的相应卡路里摄入的可能的最佳信息处理方式 - 在动物中,最昂贵的功能将被最无情地优化以增加生存和生殖。这也非常符合大脑所有的复杂性;每一个小功能都被彻底优化,只有随着技术的进步,我们才能逐步了解这种复杂性。

在脑中存在着数百种不同类型的神经元,每种具有其特定的功能。 事实上,神经科学家通常可以通过观察脑区中不断变化的结构和神经元类型来区分不同的脑区和它们的功能。虽然我们不明白回路如何执行信息处理的细节,但我们可以看到,每个这些独特的回路被仔细设计,以执行某种功能。 这些回路通常在进化中被不同的物种中复制,这些物种共享共同的祖先,其分支延续到数亿年前的这些不同物种中,表明这样的结构对于它们正在处理的任务是进化优化的。

在深度学习中的等价的是,如果我们有10000种不同的卷积网络(具有自己的一组激活函数和更多的函数),我们仔细地组合以改善我们的算法的整体功能 - 你真的认为我们可以建立一些东西从而可以产生复杂的信息处理,这仅仅遵循一个简单的通用架构?当我们甚至不能理解其学习算法时,便认为我们可以超越这个奇怪的复杂器官是相当幼稚的。

除此之外,我们将开发更好的算法从而大脑更有用的声明是不可能的。 我们只有在实现它时才能证明它,我们不能证伪它。 因此,这是一个相当无意义的陈述,没有什么实际价值。理论通常是有用的,即使没有足够的证据表明它们是正确的。物理学标准模型是一个非常有用的理论,由世界各地的物理学家和工程师在他们的日常生活中用于开发我们所喜欢的高科技产品; 然而这个理论并不完整,仅在几天前,当一个新的粒子被证明存在于LHC实验中时,它被修正了。

想象一下,如果有另一个模型,但你只能使用它,当我们已经证明了所有的粒子的存在。 这个模型将是相当无用的。 当它对世界上的行为没有任何预测时,我们将无法用这个理论来制造和发展电子学。同样,我们可以开发比大脑更有效的算法的说法没有帮助; 它使得更难以取得进一步的进展。 大脑应该是我们的主要关注的方向。另一个论据是,典型的Yann LeCun(他在一个小组中作出类似的论点)是:可以说,飞机比鸟飞得更好; 但是,如果你描述鸟的飞行,它是非常复杂和每一个细节计数,而飞机的飞行只是简单地由翼型周围的流体流动描述。与大脑相比,为什么对深度学习简单的期望是错误的?

我认为这个论点有一些真理在的,但本质上,它提出了错误的问题。 我认为很明显,我们不需要仔细地复制一切,以实现人工智能,但真正的问题是:我们要在哪里画线?如果你知道神经元可以模拟卷积网的方式,那进一步地说,这个模型太复杂,我们需要使它更简单吗?

下一篇
举报
领券