图灵奖得主、贝叶斯之父 Judea Pearl 谈深度学习局限，想造自由意志机器人

新智元

发布于 2018-03-26 10:52:35

9800

发布于 2018-03-26 10:52:35

文章被收录于专栏：新智元

【新智元导读】人工智能领域最高荣誉图灵奖的获得者，贝叶斯之父 Judea Pearl 日前接受 Edge 的采访。他谈到自己发明贝叶斯理论的过程，谈到了当下火热的深度学习的几个局限，也说到了自己的研究兴趣：希望开发拥有自由意志的机器人。他认为，决策理论也许是创造出人类智慧的一个方式。

文章要点

20世纪80年代，当我们从基于规则的系统过渡到贝叶斯网络的时候，产生了一种新的思想。贝叶斯网络是一种概率推理系统。专家可以把自己对所在领域的专业知识输入其中。领域可以指疾病或者石油，这和专家系统的目标是一致的。
这一思路是对某个领域而不是应用过程建模。拿疾病的例子来说，你需要把疾病相关的局部概率知识和相关变量表现形式输入，如果你观察到一些证据，计算机将会采纳并在需要的时候激活这些概率知识，为你计算出新的证据所需要的修正概率。
Pearl 的贡献在于：1）通过概率演算的命令做事情；2）异步分布式计算的仿生结构。你从一个简单的模型集开始，比如神经网络，所有的工作都是自主的，而且只与它们的相邻的模块通信。

Judea Pearl 是 UCLA 计算机科学系的教授，他曾两次居于科学革命的中心：第一次是在 20 世纪 80 年代，他为人工智能引入了一套新的工具，叫贝叶斯网络。这种基于概率的机器推理模型使得机器能在复杂的、模糊的和不确定性的环境下工作。短短几年内，贝叶斯网络就完全替代了此前基于规则的人工智能方法。

第二次革命，鉴于贝叶斯网络在计算上的优势，Pearl 意识到简单的图模型和概率论（正如贝叶斯网络中的那样）也能用于因果关系的推理。这一发现为人工智能的发展奠定了另一个基础，但意义远非如此，这一能验证因果关系的、条理性的数学方法，几乎已经被所有科学和社会科学领域采用。

Judea Pearl 是图灵奖获得者，他发表的作品包括 Heuristics、Probabilistic Reasoning in Intelligent Systems 和 Causality: Models, Reasoning, and Inference。

Judea Pearl 最早在研究半导体

20 世纪 60 年代初，很多都为计算机的未来投入巨大的资本。我进入一个设备主导的研究小组，它的目标是找到可以转变为计算机内存的新材料。那时磁芯存储器已经不流行。有些人研究光致变色现象，另一些人研究半导体，我研究的是超导性。实际上，我的学位论文也是跟超导存储器有关的。

为了使计算机的体积更小，速度更快，价格更低，每个人都感受到更换核心存储器的紧迫性。我记得贝尔实验室和IBM都很狂热地研究超导性问题，你可以想到的每个物理现象都被琢磨做成记忆装置。最终，半导体在这场角逐中胜出了。

Fairchild Camera 最先推出了半导体存储器。大家都笑他们说：“电源故障时就可能丢失存储，谁会冒这个险？”

因为半导体的缘故，我事实上被解雇了，不得不寻找另外的工作。幸运的是，我有一位朋友在UCLA，所以我给他打了一个电话，他告诉我有一个职位在招人。当时我甚至不知道那是什么职位。我料想我应该是去做教授，教我懂得的任何东西，而我懂的也就是计算机存储器。但其实没有太多教存储器的需要，所以我开始研究 AI。离开产业，进入学术界是我一生中做出的最好的决定，当然，除了和我的妻子结婚之外。

我于 1969 年加入UCLA。我很快对统计决策理论和决策分析感兴趣起来。我花了十年时间才进入我后来一直在做的事情，即信用决策自动化。当时研究这个的只有 Ron Howard 的团队，但他是在管理领域，而不是计算机科学。

专家系统为什么没有成功？从科学角度来说，基于规则的系统是错误的

上世纪 70 年代末 80 年代初，AI的研究都集中于各种应用的专家系统，从医学诊断到矿物勘探等等。当时的想法是，无论哪个领域的专业人士，或者称“专家”，都可以用计算机效仿。例如，通过与专业人士的访谈，你可以提取他的基本操作规则，将这些规则用于计算机。当计算机有了足够的规则，就可以有一个引擎来激活规则，并对所观察到的证据作出回应，例如告诉你在哪里可以挖到石油，或者接下来该进行什么医疗检测。

这种专家系统没有成功的原因有很多。主要障碍之一是采访专家所需时间太长。专家必须花两三个星期，告诉程序员他们如何进行日常工作、如何进行推理，等等。

从科学角度来说，基于规则的系统就是错误的。它们为专家建模，而不是对疾病本身建模。问题在于，程序员创建的规则没有正确的组合。当添加更多新的规则时，你必须撤消旧的规则。它是一个非常脆弱的系统。例如，如果医院出现程序上的变动，整个系统都必须得重写。而且我们这里谈的规则不是一两个，而是有数百个，包括专家（在这个例子中是医生）理解的所有互动方式；当专家输入100 条规则，可能就已经忘了前面几条。

我不喜欢基于规则的系统的另一个原因是它不具有科学透明性。我很懒。所以我需要了解我在做什么，我需要了解它的数学理据。基于规则的系统在数学上是不稳定的。数学可以优雅地告诉你：“如果你的过程没出错，就能保证得出确定的结果。”这种保证令人愉快，但基于规则的系统缺乏这种保证。

上世纪 80 年代初，我们从基于规则的系统转变为贝叶斯网络时，出现了一种新的思路。贝叶斯网络是一个概率推理系统。专家可以把自己对所在领域的专业知识输入其中，这和专家系统的目标是一致的。这一思路是对某个领域而不是应用过程建模。拿疾病的例子来说，你需要把疾病相关的局部概率知识和相关变量表现形式输入，如果你观察到一些证据，计算机将会采纳并在需要的时候激活这些概率知识，并为你计算出新的证据所需要的修正概率。

这就是证据引擎。它会被填入一个关于某个领域的概率描述中，当新的证据出现，系统会对相关的信息进行处理，然后会在所有的命题中为你提供你的修正后的信念（belief），通过修正来反映新的证据。

贝叶斯网络主要卖点：可重组和透明

问题在于紧凑性和速度，这是两个主要的障碍。理论上，信念修正需要指数级的时间和指数级的存储能力，而这些难以提供。

知识构建者理解哪些事实是相关的，哪些是无关的，这是我们的优势。这给了我们一个稀疏的网络，而当你有一个稀疏的网络，就可以利用它的稀疏性，获得速度和紧凑性。贝叶斯网络是一种在告诉它初始信念后，快速计算出修正信念的方式。这显然是飞跃性的进步，因为它具有概率演算的所有有利属性，再加上基于规则的系统的程序优势。而且，它是透明的。

贝叶斯网络流行起来并且起作用的主要因素是“可重组性”。例如，假如任务是检修汽车发动机，当燃油泵被更换，你不必重写整个系统；你只需要修改负责给泵建模的子系统，其余都可以保持不变。因此，可重组性和透明性是贝叶斯网络的主要卖点。

我的贡献在于：1）通过概率演算的命令做事情；2）异步分布式计算的仿生结构。你从一个简单的模型集开始，比如神经网络，所有的工作都是自主的，而且只与它们的相邻的模块通信。当有新的证据进来，会激活这样几个模块，让它们像临近的模块发送信号，临近的模块再被激活，再传递信息给它们的邻居，如此继续——直到系统得到正确的信念。正确的信念是什么意思呢？就是假如你有足够的时间，根据概率演算的命令做正确的事情，就会计算出来的信念。

深度学习有哪些缺陷

概率推理还处于胚胎时期时，我就抛弃了它，因为我对因果推理热心起来。当时很多人发现概率推理非常有用。有人告诉我，现在的一些很好的应用程序比如Google和Siri都应用了当时的理念或者算法，这让我很开心。我不知道他们实际上在做什么，部分原因是他们非常保密，部分是因为我转去了其他的方向。

我们现在的深度学习失去了透明性。我有跟那些说深度学习“效果很好”的用户交谈过，但他们不知道为什么效果好。一旦解开了它的束缚，它会有自己的动态性，会自己做修复，做优化，而且大多数情况下能得出正确的结果。但当它被束缚，你就没有线索知道它哪里出了错，哪里需要修复。这是让我担心的事情。

我们应该把目标置于一种不同的透明性。当出现问题时，用户应该能够检查系统并发现故障的位置；当工作正常时，系统应该能够向用户提供有意义的反馈以供改进。这些反馈应该与我们的经验有关，进而与人类对这种现象的看法有关。

有人认为透明性不是必须的。我们也不理解人体解剖学和人类神经结构，但我们的身体也好好地运行着，并不责备我们对身体的浅薄理解。同样的道理，这些人认为，为什么不解开深度学习系统的束缚，让它们创造智能，而我们不必理解它们是怎么做的。我个人是不喜欢这种不透明性，这也是我不花时间去研究深度学习的原因。深度学习自有它的作用。不透明的系统可以做一些非凡的工作，而我们的大脑就是很好的证明。

我试图理解这些系统的理论局限性。我们发现，例如，存在一些基础性的障碍，除非能打破这些障碍，否则我们无论怎么做都无法得到真正的人类智慧。这是我目前的兴趣所在。

我很钦佩一些人，像Michael Jordan和Geoffery Hinton。他们创造了用于物体识别和文本识别的非常好的视觉系统。这很让人感佩。但它能走多远？它有哪些理论限制，我们该怎么克服这些限制？我们现在对因果关系的研究强调需要克服的一些基本性限制。其中之一是自由意志，其余是反事实思维，以及因果性思考。理论上，你无法只从统计数据中得到关于因果关系的任何结论，更无法得到关于反事实的结论。

那是我们教小孩的方式，比如在手腕上拍一下，并大声说：“你不应该弄撒牛奶，”或“你应该去做作业。”“你应该做……”意味着什么呢？这意味着回到过去，再次经历一番并修改控制你的行为的软件吗？这是我们与小孩的沟通方式。如果我们失去了这种方式，我们也就失去了形成社交能力的机制。这是最近让我兴奋的话题。

如何创造出人类智慧

关于控制论，你知道我是一个物理学家。我研究存储设备，因为我对控制论感兴趣，又开始研究决策理论。我们都确信我们某天将创造出人类智慧。问题是怎样创造。我认为决策理论是一种方式。所以我研读了Howard Raiffa（最近刚去世）的论文，Savage的贝叶斯统计，还有Ron Howard，Kahneman和Tversky的关于心理启发的文章。这是在70年代末。

Tversky和Kahneman当时是大人物，他们提出的启发式我认为应该模仿，不能被埋没了。对AI来说，我认为这样的启发式算法在解决问题中可以扮演重要的角色。回想起来，我写的第一本书就是关于启发式算法的，我还用下象棋的机器作为决策理论中很多观点的隐喻。

Tversky和Kahneman当时在研究概率和决策偏差。例如，母亲的眼睛是蓝色的条件下，女儿的眼睛也是蓝色的概率大——还是反过来，女儿有蓝眼睛的条件下，母亲也是蓝眼睛的概率大？多数人会说前者概率大——因为他们更喜欢考虑因果。但事实证明，两种情况概率是相同的，因为每代人中眼睛人数保持稳定。我用这个例子作为证据，说明人们更喜欢因果思考，而不考虑概率——他们偏向于容易获得的因果解释，即使概率论会指出不同。

我们的判断常常存在许多偏见，这是因为我们倾向于依赖因果关系。我们将世界看作是因果关系的集合，而不是统计关系或相关关系的集合。大多数时候我们可以绕行得到正确的判断，因为这些关系紧密相关。但有时会导致失误。蓝眼睛的故事就是一个这种失误的例子。

“相关并不意味着因果”这句话导致了许多悖论。例如，小孩的拇指的大小与他们的阅读能力高度相关。所以，如果你想长高，就要学会更好地阅读。这种矛盾的例子证明，相关并不等于因果关系。但是，人们由于渴望因果解释而常常落入这种陷阱。我们的大脑是一个因果处理器，而不是关联处理器。问题在于怎样调和两者之间的关系。我们怎样在大脑中组织因果关系？怎样操作和更新这种心理呈现？这引出了许多问题，哲学家，心理学家，计算机科学家和统计学家都还没法解决的问题。现在我们有了这些模式，所以很多人感到兴奋，要做的工作也很多。

希望开发拥有自由意志的机器人

哲学上关于自由意志的辩论是非常棒的，但我对此毫无兴趣。我希望开发一种机器，它们在行动起来就像拥有自由意志一样。机器也能想象我拥有自由意志，这样我们就能相互沟通，因为彼此都拥有自由意志。这是一个编程学的问题。非确定性主义和心灵-身体二重性哲学对这好无语影响。

我们应该回答的问题是我们到底有没有自由意志，不可否认的是，我是有感觉的，如果我想，我可以随意触摸我的鼻子，如果我不想，我就不摸。你也有这样的感官，感官是不可否认的，它确实存在。给我一个软件模型，它可以解释我什么时候拥有感觉，什么时候没有。随后，问题就变成，为什么人类的进化会配备给我这种感觉。让我相信你有自由意志，也让你相信我有自由意志，这在计算上会有什么样的优势？

先不谈我们是否拥有自由意志。我们在这拥有一种计算的现象，它必须提供一些进化的功能，生存的功能和计算功能。如果现象不能提供计算上的优势，它就不会得到演进。这也是我在尝试理解的东西。它会给我们带来什么样的计算优势？确实，有一些实验证据表明，自由意志就是一种幻想。研究也发现，人们的心理是自己决定的，在人获得感觉之前他们就已经预先做了决定。但这也不会困扰我。我希望找到，在创造幻觉的过程中，都发生了哪些计算过程。我希望把这一过程加入机器中，这样机器人也许能更好的掌握足球。

当下：因果推理革命

我主要的兴趣是关于现象的计算语用学，与其哲学基础相反。你和我都强烈地相信机器人是一种确定性的机器。所以，所有海森伯格的不确定性理论和心灵-身体二重性原则所遇到的哲学上的阻碍，都不会成为我们的问题。机器就是身体，而不是心灵。

现在，那这个身体来说，这毫无疑问是确定性的，给它配上一些通常被认为只属于有机的思维机器——人类才有的东西（比如，自由意志）。这是一个工程学难题。我希望理解它，这样我就能建造它。为什么我想要建造它？因为它在计算上有优势，比如，我们交流语言上的紧凑性。当一名教练对队员说，给我留在板凳席上，因为本该传球你却没传。为什么他要用这么复杂的方式说话？对于机器来说，“你本可以做得更好”是什么意思？

如果你认为自由意志是存在的，之后你可以激发出反事实思维，并把其当成一种沟通语言，来加速教练和你，也就是队员之间的信息交换。我认为这是关键。

假设你我都有自由意志，我们能从这种假设中得到哪些计算优势？这是一个令人兴奋的问题，因为，一旦我们理解了这一问题，我们就能让机器人模拟自由意志。至于它们是不是真的有自由意志，这些无生产力的哲学讨论则是无关紧要的。显然，他们是被编程从而遵循先决规则，并且坚定地遵守编程规则，所以，从形式上来看，它们确实缺乏自由意志。

同时，如果他们像我们一样交流，使用自由意志词汇，我们就能增加人类和机器之间沟通渠道的带宽。这是事关重要的。并且，一旦我们开发了这样的机器人，我们会更加理解人类是如何做到这样的，比现在接近100倍。

我们正身处这场革命之中，任何流行的科幻小说中，都没有想象到如今的场景。这和我们在AI中看到的先驱性革命不同，因为没有什么新鲜的东西产出。这是一场概念的革命，其中科学家如何看待自己的角色，以及他们如何引导自己的思维目前存在很多分歧。这就是所谓的因果革命。

今天，有许多问题都是20年前被认为是形而上学的问题。这些问题现在都被数学公式化，并通过统计学获得了答案。这是科学家用科学的手段掀起的一场革命。我指的是因果推理革命。

这场革命产生的效应主要在研究圈中引起了注意，科学家在自己的实验和观察研究中，发现了因果的解释。我们对自己建立因果联系的能力的看法正在被我们所使用的语言、我们的逻辑和问题的类型所改变。

让我来问你这样一个简单的问题：是因为服用了阿司匹林，所以我的头疼消失了吗？这样一个问题，关于事情的真正起因，曾被认为是一种形而上学，而不是科学的一部分。今天，我们能够从数据中回答这一问题，并且告诉你是阿司匹林减退了头疼的概率。依我所见，这是一场深刻的革命。

在过去的几十年中，人们对因果推理的了解超过了此前历史上在这一方面积累的知识的总和。这并不是我的说法，而是来自Gary King。它最终一定会浮出水面，让普通人也可以感受到其中的不一样，并最终落实到教育中去。迄今为止，这种激动人心的发现还主要发生在研究圈，没有扩展到教育中。

我在教育上花了大量的时间，在填补研究社区的思维和课本社区（教育）的鸿沟上进行了很大的努力。鸿沟很大。给你举个例子，如果你看任何一本统计学的书，你不会在目录上发现“因果推论”一词。这和我们在研究性的学术期刊上看到的不一样。如果你去参加任何一个统计学会议，你会发现至100~200份包含“cause”的论文，通过 cause 一词来获得名声。所以，因果关系自身从一种倾向变成了一种资产，一种获得名声的资源。这种跨越在教育领域中是没有的，所以两者有很大的鸿沟。我现在在这方面做了很多工作。

编译来源：https://www.edge.org/conversation/judea_pearl-engines-of-evidence

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2016-10-25，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习