前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >how we learn 第二章 人脑比机器强在哪?(长文)

how we learn 第二章 人脑比机器强在哪?(长文)

作者头像
用户1908973
发布2021-04-16 15:04:14
4420
发布2021-04-16 15:04:14
举报
文章被收录于专栏:CreateAMindCreateAMindCreateAMind

第二章

对人工神经网络的一个常⻅批评是,它们试图在同一水平上学习一切,好像每个问题都是自动分类的问题。对一个拿着锤子的人来说,一切看起来都像钉子!但是我们的大脑灵活多了。它能够快速地对信息进行优先排序,并尽可能提取出一般的、逻辑的和明确的原则。

人工智能缺少什么?

1 学习抽象概念

我们有时会犯与机器相同的错误,并可能把狗误认为猫。然而,只要给人类多一点时间,他们就会纠正他们的错误。与电脑不同,我们有能力质疑自己的信念,并将注意力重新集中在与我们第一印象不符的图像上。这第二种分析,有意识的和聪明的,需要我们一般的推理和抽象能力。人工神经网络忽略了一个要点:人类学习不仅仅是设置模式识别过滤器,而是形成一个抽象的世界模型。例如,通过学习阅读,我们获得了字母表中每个字母的抽象概念,这使我们能够识别所有伪装的字母,并生成新的版本

2 数据高效学习

3 社会学习:通过抽象的语言,我们可以协作并分享信息;

有意识的知识伴随着语言的重新表达 便携性:每当我们以足够清晰的方式理解某件事时,一个心理公式就会在我们的思维语言中产生共鸣,我们可以用语言来报告它。我们用最少的单词与他人分享知识的非凡效率很高。

4 one-shot learning

学习就是成功地将新知识加入到现有的网络(庞大的符号和规则系统中)中。

5 系统性和思维语言

许多五六岁左右的孩子发现,每个数字n都有一个后继数n + 1,因此整数序列是无限的——没有最大的数字。我仍然带着感情记得,当我意识到这一点的时候——事实上,这是我的第一个数学定理。多么非凡的抽象能力!我们的大脑包括有限数量的神经元,它是如何将无限概念化的?

在灵⻓类动物中,我们的大脑似乎是唯一一个代表根据复杂的树状语法组合的符号集的大脑。2例如,我的实验室表明,人类大脑在没有立即建立底层抽象结构(三个相同的声音后跟一个不同的声音)的理论的情况下,无法听到一系列声音,如beep beep beep boop

放在同样的情况下,一只猴子检测到一连串的四种声音,意识到最后一种不同,但似乎没有把这种分段的知识整合到单一的公式中;我们知道这一点是因为当我们检查他们的大脑活动时,我们看到不同的电路为数字和序列而激活,但从来没有观察到我们在人类语言区域“布洛卡区”发现的综合活动模式。

同样,在猴子明白如何颠倒一个序列的顺序(从ABCD到DCBA)之前,需要数万次试验,而对于一个四岁的人类来说,五次试验就足够了。

即使是几个月大的婴儿也已经使用抽象和系统的规则编码了外部世界——这种能力完全超越了传统的人工神经网络和其他灵⻓类物种。

6 Composition.

在人脑中,学习几乎总是意味着将知识显化,以便重用、重组和向他人解释。

第二种学习系统,基于规则和符号,等级高于前一种。在早期阶段,我们的视觉系统有点像当前的人工神经网络:它学会过滤输入的图像并识别频繁的配置。这足以识别游戏围棋的人脸、单词或配置。但随后,处理方式发生了根本变化:学习开始类似于推理,一种试图捕捉领域规则的逻辑推理。创造达到这第二个智能水平的机器是当代人工智能研究的一大挑战。

让我们检查两个元素,它们定义了人类在第二个层次学习时做什么,并且挑战了大多数当前的机器学习算法

一 学习是推断一个领域的语法

人类的特点是不懈地寻找抽象的规则,从特定的情况中提取高层次的结论,然后在新的观察中进行测试。试图制定这样的抽象定律可能是一个非常强大的学习策略,因为最抽象的定律恰恰是那些适用于最多观察的定律。找到合适的定律或逻辑规则来解释所有可用的数据是大规模加速学习的最终手段——而人脑非常擅⻓这个游戏。

让我们考虑一个例子。想象一下,我给你看十几个不透明的盒子,里面装满了不同颜色的球。我随机选择了一个盒子,一个我从来没有抽出过任何东⻄的盒子。我把手伸进去,画了一个绿色的球。你能推断出盒子里的东⻄吗?下一个球会是什么颜色? 可能想到的第一个答案是:我不知道——你几乎没有给我任何信息;我怎么知道下一个球的颜色?是的,但是...想象一下,在过去,我从其他盒子里取出一些球,你注意到了下面的规则: 在一个给定的盒子里,所有的球总是相同的颜色。问题变得琐碎。当我给你看一个新盒子时,你只需要画一个绿色的球就可以推断出所有其他的球都是这个颜色。考虑到这个普遍规律,在一次试验中学习是可能的。

这个例子说明了在通常被称为“元”的层次上形成的高阶知识是如何指导一整套较低层次的观察的。“在一个给定的盒子里,所有的球都是相同的颜色,”这一抽象的元规则一旦被学习, 就会极大地加速学习。当然,也可能结果是假的。如果你探索的第十个盒子包含各种颜色的球,你会非常惊讶(或者我应该说“超级惊讶”)。在这种情况下,你必须修改你的心理模型, 质疑所有盒子都是相似的假设。也许你会提出一个更高层次的假设,一个元元假设——例如,你可能会假设盒子有两种,单色的和多色的,在这种情况下,你至少需要每个盒子画两次才能得出结论。无论如何,制定一个抽象规则的层次结构会节省你宝贵的学习时间。

因此,从这个意义上来说,学习意味着管理一个内部的规则层次,并试图尽快推断出概括一系列观察结果的最一般的规则。人类的大脑似乎从小就应用这种等级原则。

举一个两三岁的孩子在花园里散步,从他或她的父母那里学习一个新单词,比如蝴蝶。通常,孩子听到一两次这个词就足够了,瞧:它的意思被记住了。这样的学习速度是惊人的。

它超越了迄今为止所有已知的人工智能系统。

这个问题为什么这么难?因为每一句话的每一句话都没有完全约束它的意思。蝴蝶这个词通常是在孩子沉浸在一个复杂的场景中时说的,这个场景充满了花、树、玩具和人;所有这些都是这个词的潜在含义,更不用说不太明显的含义了:我们生活的每一刻都充满了声音、气味、动作、动作,还有抽象的属性。据我们所知,蝴蝶可能意味着颜色、天空、移动或对称。抽象词的存在使得这个问题最令人费解。如果所指的事物不能被感知或体验,孩子们如何学习单词think、confident、no、freedom和death的含义?当他们每次听到“我”这个词时,他们是如何理解它的意思的呢…他们自己?!(共同注意力

抽象单词的快速学习与巴甫洛夫条件反射或斯金纳联想不一样

词汇习得对认知科学提出了巨大的挑战。然而,我们知道解决方案的一部分在于孩子表达非语言、抽象、逻辑表达的能力。甚至在他们习得第一个单词之前,孩子们就已经拥有了一种思维语言,在这种语言中,他们可以表达和测试抽象的假设。

婴儿的大脑不是空白的石板, 他们投射到外部世界的先天知识可以极大地限制他们学习的抽象空间。此外,孩子们很快就学会了单词的意思,因为他们在假设中选择了一整套高级规则作为指南。这种元规则极大地加速了学习,就像不同盒子里的彩球问题一样。

这些促进词汇习得的规则之一是始终支持与数据兼容的最简单、最小的假设。

例如,当一个婴儿听到它的母亲说,“看看这只狗”,理论上,没有什么能排除狗这个词指的是那只特定的狗(史努比)——或者相反,任何哺乳动物、四条腿的生物、动物或生物。孩子们如何发现一个词的真正含义——狗意味着所有的狗,但只有狗?实验表明,他们通过测试所有假设进行逻辑推理,但只保留与他们听到的最简单的假设。因此,当孩子们听到“史努比”这个词时, 他们总是在特定的宠物的上下文中听到它,而与这些可观察到的事物兼容的最小集合仅限于特定的狗。孩子们第一次听到狗这个词时,在一个特定的上下文中,他们可能会暂时相信这个词只指那个特定的动物——但是一旦他们在两个不同的上下文中听到它两次,他们就可以推断这个词指的是整个类别。这个过程的一个数学模型预测(文献13),三四个例子就足以收敛到适当的意义。这是儿童做出的推论,比任何现有的人工神经网络都要快。

这些元规则中的一个表达了一个不言而喻的事实:一般来说,说话者会注意他或她在说什么。一旦婴儿理解了这一规则,他们就可以在很大程度上限制他们寻找意义的抽象空间:他们不必像计算机一样将每个单词与视觉场景中的所有对象相关联,直到他们获得足够的数据来证明每次他们听到关于蝴蝶的消息时,小的彩色昆虫都会出现。孩子所要做的就是跟随母亲的目光或手指的方向来推断他母亲在说什么:这被称为“共同注意力”,这是语言学习的一个基本原则。

这里有一个优雅的实验:拿一个两三岁的孩子,给他看一个新玩具,让一个大人边看边说:“哦,一个wog!”一次试验就足以让孩子知道wog是那个物体的名字。

现在复制一下情况,除了大人一句话不说,孩子听到“哦,一个wog!”由天花板上的扬声器发出。严格来说,孩子什么也学不到,因为他再也无法理解说话者的意图。14只有当婴儿设法理解说出一个新单词的人的意图时,他们才能理解这个单词的含义。这种能力也使他们能够获得抽象词汇的词典:要做到这一点,他们必须站在说话者的立场上理解说话者想要表达的思想或单词。

他们之所以能够做到这一点,是因为这些语法词非常频繁,无论何时出现,几乎总是出现在名词或名词短语之前。这个推理可能看起来是循环的,但事实并非如此:婴儿在六个月大的时候就开始学习他们的第一个名词,从极其熟悉的名词开始,比如瓶子和椅子...然后他们注意到这些单词的前面经常有一个非常常⻅的单词,文章...由此他们推断所有这些词可能属于同一个范畴,名词...这些词经常指的是...一种元规则,能够 当他们听到一个新词时,比如“蝴蝶”,他们首先在周围的物体中寻找可能的意义,而不是把这个词当作动词或形容词。因此, 每一次学习都强化了这一规则,这一规则本身促进了随后的学习,每天都在加速进行。发展心理学家说,儿童依赖于句法引导:儿童的语言学习算法通过利用一系列小而系统的推理步骤,自行设法逐渐起⻜。

还有一个元规则是孩子们用来加快单词学习的。它被称为“相互排他性假设”,可以简洁地表述为:一物一名。法律基本上是说两个不同的词不太可能指代同一个概念。因此,一个新词很可能指的是一个新的物体或想法。记住这条规则,一旦孩子们听到一个不熟悉的单词,他们就可以限制他们对那些他们还不知道名字的事物的意义的搜索。而且,在16个月大的时候, 孩子们非常聪明地使用这个技巧。

在这里,我们再次看到掌握元规则可以极大地加速学习。而且很可能这个元规则本身就是学来的。事实上,一些实验表明,双语家庭的孩子比单语家庭的孩子更少应用这一规则。他们的双语经历使他们意识到他们的父母可以用不同的词来说同样的话。另一方面,单语儿童严重依赖排他性规则。他们已经发现,每当你使用一个新单词时,很可能你想让他们学习一个新的对象或概念。

所有这些元规则都说明了所谓的“抽象的祝福”:最抽象的元规则可能是最容易学习的东⻄,因为孩子听到的每个单词都为他们提供了证据。因此,语法规则“名词往往在冠词the之前”很可能很早就被习得,并指导随后大量名词的习得。多亏了抽象的祝福,大约两到三岁的孩子进入了一个被称为“词汇爆炸”的祝福期,在此期间,他们每天毫不费力地学习10到20个新单词(作者提到一只牧羊犬也学得了这个相互排他性假设元规则)

学习包括从思维语言的大量表达中选择最适合数据的表达。我们很快就会看到,这是一个优秀的儿童行为模式。像初露头⻆的科学家一样,他们制定理论,并与外界进行比较。这意味着儿童的心理表征比当今的人工神经网络更加结构化。从出生起,孩子的大脑就必须拥有两个关键要素:所有能够产生大量抽象公式(一种组合思维语言)的机器,以及根据数据的可信度从这些公式中明智选择的能力。

这就是大脑的新愿景:一个巨大的生成模型,结构庞大,能够产生无数假设的规则和结构——但它逐渐将自己局限于那些符合现实的规则和结构。

二 学习就是像科学家一样推理

大脑如何选择最合适的假设?它应该以什么标准接受或拒绝外部世界的模式?事实证明,这样做有一个理想的策略。这一策略是最近最有成效的学习理论之一的核心:大脑表现得像一个崭露头⻆的科学家的假设。根据这一理论,学习就像一个好的统计学家一样进行推理,他在几种可供选择的理论中选择最有可能正确的理论,因为它最能说明可用的数据。

科学推理是如何工作的?当科学家阐述一个理论时,他们不仅仅写下数学公式——他们还做出预测。一个理论的力量是由它产生的原始预测的丰富程度来判断的。随后对这些预测的确认或反驳会导致理论的验证或失败。研究人员运用了一个简单的逻辑:他们陈述了几个理论, 解开了随之而来的预测网,并排除了那些其预测因实验和观察而无效的理论。当然,一个单独的实验很少够用:它通常是必要的 在不同的实验室里重复这个实验几次,以便区分真假。

套用科学哲学家卡尔·波普尔(1902-1994)的话来说,随着一系列猜想和反驳允许一个理论的逐步完善,无知不断消退。

科学的缓慢过程类似于我们学习的方式。在我们每个人的头脑中,随着我们的大脑通过观察成功地形成越来越准确的外部世界理论,无知逐渐被抹去。但这仅仅是一个模糊的比喻吗? 不——事实上,这是一个关于大脑必须计算什么的相当精确的状态。在过去的三十年里,“儿童作为科学家”的假设导致了一系列关于儿童如何推理和学习的重大发现。

越来越多的研究人员开始意识到,只有基于概率论的⻉叶斯方法才能保证从每个数据点提取最大限度的信息。学习就是能够从每一次观察中得出尽可能多的推论,甚至是最不确定的推论——这正是⻉叶斯法则所保证的。

夏洛克·福尔摩斯在著名的故事《银色火焰》中运用的就是这条规则: “你还有什么想引起我注意的吗?"苏格兰场的格雷戈里探⻓问。

福尔摩斯:“对于夜间狗的奇怪事件。” 格雷戈里:“这只狗晚上什么也没做。” 福尔摩斯:“那是一个奇怪的事件。” 夏洛克推断,如果狗发现了一个陌生人,它就会吠叫。因为他没有,这个罪犯一定是一个熟悉的人...这一推理使得这位著名的侦探缩小了搜索范围,最终揭露了罪犯。

“这跟学习有什么关系?”你可能会问自己。嗯,学习也像侦探一样推理:它总是归结为回到现象的隐藏原因,以便推导出支配它们的最合理的模型。但是在现实世界中,观察很少是真或假的:它们是不确定的和概率性的。

⻉叶斯理论允许我们沿着相反的方向旅行,从观察到原因。它以数学上精确的方式告诉我们,如何回答诸如“在几次硬币翻转后,我应该改变对硬币的看法吗?”默认假设是硬币没有偏⻅...但是如果我看到它落在尾部20次,我必须修改我的假设:硬币肯定是被操纵的。显然,我最初的假设已经变得不太可能了,但是有多少呢?该理论精确地解释了如何在每次观察后更新我们的信念。每个假设都有一个对应于概率或置信水平的数字。每观察一次,这个数字就会改变一个值,这个值取决于观察到的结果不太可能的程度。就像在科学中一样,实验观察越不可能,它就越违背我们最初理论的预测,我们就越有信心拒绝那个理论并寻找替代解释。

这和我们的大脑有什么关系?嗯,同样的推理似乎发生在我们的大脑皮层内部。

23根据这一理论,大脑的每个区域都制定一个或多个假设,并将相应的预测发送到其他区域。通过这种方式,每个大脑模块通过交换传达外界概率预测的信息来约束下一个模块的假设。这些信号被称为“自上而下”,因为它们始于大脑的高级区域,如额叶皮层,并向下到达较低的感觉区域,如初级视觉皮层。该理论提出,这些信号表达了我们的大脑认为合理并希望测试的假设领域。

在感觉区域,这些自上而下的假设接触到来自外部世界的“自下而上”的信息,例如来自视网膜的信息。此时此刻,模型面临现实。该理论认为,大脑应该计算一个误差信号:模型预测的和观察到的之间的差异。⻉叶斯算法然后指示如何使用这个误差信号来修改世界的内部模型。如果没有错,说明模型是对的。否则,误差信号会沿着大脑区域链向上移动,并在此过程中调整模型参数。相对来说,算法很快就收敛到一个适合外部世界的心智模型。

根据大脑的这一愿景,我们的成人判断结合了两个层面的洞察力:我们物种的先天知识(⻉叶斯称之为先验,在整个进化过程中继承的一套合理的假设)和我们的个人经验(后验:基于我们一生中能够收集的所有推论对这些假设的修正)。这种分工结束了经典的“先天还是后天”的争论:我们的大脑组织为我们提供了强大的启动工具和同样强大的学习机器。所有知识都必须基于这两个组成部分:第一,在与环境进行任何交互之前的一组先验假设,第二,一旦我们遇到一些真实的数据,就有能力根据它们的后验似然性对它们进行调整。

人们可以从数学上证明⻉叶斯方法是最好的学习方法。这是提取学习情节精髓并从中获得最大收益的唯一方法。即使是一些信息,比如图灵在英格玛密码中发现的可疑巧合,也足以让我们了解。一旦系统处理它们,就像一个好的统计学家耐心地积累证据一样,它将不可避免地以足够的数据来反驳某些理论并验证其他理论。

大脑真的是这样工作的吗?它能够在出生时产生大量的假说,并从中进行选择吗?它是通过排除来进行的吗,根据观察到的数据支持假设的程度来选择假设?婴儿从出生起就像聪明的统计学家吗?他们能够从每次学习经历中提取尽可能多的信息吗?现在让我们仔细看看婴儿大脑的实验数据。

Part Two......

原书链接:https://www.amazon.com/gp/product/B07S1K4TB2/ 请阅读原文访问。

欢迎反馈

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-04-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档