文章/答案/技术大牛

发布

单凭深度学习无法带来通用人工智能，这简直就是“帮倒忙”

文章来源：企鹅号 - 造就

深度学习的质疑者中有位战士。

他有底气与大牛Yann LeCun激辩AI是否需要人类的认知能力，有勇气在AlphaZero研讨会当场diss哈萨比斯。他常年给深度学习泼冷水，认为单凭深度学习无法带来通用人工智能（AGI）。

△ Gary Marcus

他是马库斯（Gary Marcus），纽约大学心理学教授，曾任Uber AI实验室的负责人。新年第二天，他发表长文提出深度学习的十大挑战，犀利指出“深度学习不是万能溶剂，只是众多工具中的一种”。

一石激起千层浪。深度学习圈大面积的「炼丹师」已经坐不住了，赞同和怒怼交织涌向马库斯。

马库斯败阵而归？Naive了。近日，马库斯再发长文，他收集了一些被质疑的观点并实力回怼。

无监督学习适用于何处？

马库斯为什么一开始就对深度学习持否定态度？

对于可微分编程他又怎么看？

一

什么是通用智能？

AAAI前主席Thomas Dietterich是一位著名的机器学习教授，也是迄今为止最彻底和最直率的批评者。他曾给出一个我很赞同的答案：

「通用智能」是一套可以在广泛目标和环境中采取智能行为的系统。在Russell和Norvig的教科书中，他们对智能的定义是「理性的行为」。

二

马库斯对深度学习太不友好了

前面提到的Dietterich谈到了这两点：

我对@GaryMarcus的文章很失望。他很少提到深度学习的成就（例如自然语言翻译），还轻视他人，比如说ImageNet中的1000个分类太少了（很有限）。

关于第一部分。没错，我是应该多说些好话，但我并不是从来不说好话。在之前提到Dietterich的文章的第一页我就说过：

从那时起，深度学习在语音识别、图像识别、语言翻译等领域产生了大量的尖端成果，并在当前的人工智能应用领域发挥了重要作用。

此外，我还在文章的后面引用了一些优质的文章和博客。但提到的这些内容，很多都不算是通用人工智能，这是我论文的重点。比如谷歌翻译效果不错，但它不是通用的。它不能回答与它已经翻译的内容有关的问题，而人类翻译却能做到。

第二部分更为实质性。1000个类别真的非常有限吗？与认知的灵活性相比确实如此。认知科学家通常把一个人所知道的不可分割的概念的数量定为5万左右，人类可以很容易地把这些概念组合成大量复杂的思想。宠物和鱼很可能被算到这5万里面；宠物鱼则不同的，很可能没有被计算在内。

我可以很容易地想到「一只宠物鱼生病了」，或者注意到「买一条宠物鱼后发现它生病了总是令人很失望」（我小时候有过这种经历，显然至今仍然很讨厌这种状况）。我能表达多少类似的想法？肯定远超1000。

我不太确定一个人能识别多少个视觉类别，但怀疑数字大致相似。在谷歌上搜搜「宠物鱼《的图片，效果不错。搜搜」戴护目镜的宠物鱼」，你会看到戴护目镜的狗，错误率超过80%。

在区分相似品种狗的过程中，机器可以胜过不具备专家水平的人类，但是人类却在解释复杂的场景时胜出，比如一个戴着背包而不是降落伞的跳伞者会发生什么。

在我看来，专注于1000个类别的机器学习本身就是一种「帮倒忙」，它只是带来了短期的成功感受，但却否认了更困难、更开放的问题（例如场景和句子理解），而后者必须最终解决。与我们能看到和理解的几乎无限的句子和场景相比，1000确实很小。

三

马库斯说深度学习没用

当然有用。我从来没有说过深度学习没用，我只说过，在目前的监督模式下，深度学习可能已经接近极限；那些限制将在完全的通用人工智能出现后消失——除非，也许，我们开始融合一些其他的东西，比如符号处理技术和先知。

我的结论的核心是：

尽管我提出很多问题，但我不认为我们需要放弃深度学习。

相反，我们需要重新定义它：不是作为一种万能溶剂，而是简单地作为一个工具，就像一个强大的螺丝刀，而我们同时还需要锤子、扳手和钳子，更不用说凿子、钻头、电压表、逻辑探针和示波器。

四

一个狡猾的问题

“有一件事我不明白。@GaryMarcus说，深度学习对层次结构不太好。但@ylecun在自然评论文章中说，深度学习特别适合利用这种层次结构。”

这是一个狡猾的问题，是Ram Shankar提出来的。我应该更清楚地给出答案：层次结构有很多类型。对于LeCun讨论的功能层次来说，深度学习是很好的，甚至可能是最好的，我通常把它称为层次特征检测；就用像素构建线条，用线条表示字母，用字母表示单词，等等。

Kurzwel和Hawkins也强调了这类问题，这可以追溯到Hubel和Wiesel(1959)的神经科学实验，而在AI领域则可以追溯到Fukushima（Fukushima, Miyake, & Ito, 1983）。

Fukushima在他的Neocognitron模型中，手动连接那些依次更有抽象特征的层次；LeCun和其他许多人后来证明，其实不需要手动完成（至少在某些情况下）。

但是在这个过程中，你不需要追踪遇到的部件，顶层系统不需要依据过程中看到的部分明确对整个输出的结构进行编码；这就是为什么一个深度学习系统可以被欺骗，导致其把黑色和黄色条纹误认成校车。(Nguyen, Yosinski， & Clune, 2014)。

条纹模式与校车输出单元的激活紧密相关，后者反过来与一组低级特征相关，但在一个典型的图像识别深度网络中，没有一个由车轮、底盘、窗户组成的完整的校车典型。几乎所有欺骗神经网络的文献都利用了这一点。

我所讨论的结构上的层次不同于这种特征的层次，它关心的是让系统可以从整体明确推断出有哪些部件。经典的例子是Chomsky讲的层次结构：一个句子由日益复杂的语法单位构成。我不认为深度学习能处理好这些问题，尽管它们做过尝试。

即使在视觉上，这个问题也没有完全解决。例如，Hinton最近的“capsule”(Sabour, Frosst， & Hinton, 2017)就是一个尝试，通过使用更结构化的网络，来构建更强大的由部分到整体的图像识别。我认为这是一个很好的趋势，也是解决欺骗问题的一种可能方式，但也反映了标准深度学习方法面临的问题。

五

最佳反驳

“在通用人工智能的背景下讨论深度学习很奇怪，通用人工智能并不是深度学习的目标！”

推特上的最佳反驳，来自魁北克大学的教授Daniel Lemire：“噢！得了吧！Hinton，Bengio……都在公开的寻找人类智慧的模型。”

第二个最佳反驳，来自就职于谷歌的数学博士Jeremy Kun。他不同意「通用人工智能不是深度学习的目标」的说法，理由是「如果这是真的，深度学习专家肯定就不出来纠错了」。

我曾引用《哈佛商业评论》中吴恩达的文章，暗示了深度学习将很快做到人类能做到的事情。Thomas Dietterich的推特也说过「深度学习似乎没有边界」。Kaggle前主席Jeremy Howard担心这种深度学习被过度吹捧的想法本身就被夸大了，并表示所有曾被认为是障碍的事情，都已经被克服了。

在DeepMind关于AlphaGo的一篇论文中提到的观点也有些类似：

我们的研究结果已完全证明，即使在最具挑战性的领域，单纯用（深度）强化学习的方法也完全可行。

在这篇论文的结尾讨论中，我之前提出的深度学习的十大挑战一个都没被提到。

我们之所以一直对人工智能系统进行基准测试，主要是因为我们的目标是通用人工智能。

六

监督学习，而不是深度学习

Marcus所说的是监督学习，而不是深度学习的问题。

Yann LeCun在我Facebook页面的评论区中说：

我没有时间去做适当的回应，但简而言之：1）我认为这大部分是错的，但如果将论文中所有的表述从「深度学习」改为「监督学习」，那么错得不是那么厉害；2）在过去两年半中，我一直在提倡的是，探索各种方法，从无监督的学习和推理方向去拓展深度学习的概念。这不是我的一时兴起，实际上我一直在这样做。你也清楚这点，但这没有体现在你的论文中。

我被指控没有注意到LeCun近期的工作，这很奇怪。确实，我没有找到一篇很好的、可以引用的总结性文章（LeCun也在电子邮件中告诉我，现在还没有这样的总结文章），但我明确提到了他的兴趣：

深度学习先驱Geoff Hinton和Yann LeCun最近都指出，在突破受监督、需要大量数据的深度学习版本方面，无监督学习是个关键方法。

我还指出：

显然，深度学习和无监督学习在逻辑上并不是对立的。深度学习主要用于带标签数据的有监督环境，但我们也可以通过其他途径，以无监督的方式来利用深度学习。

我的结论也是积极的。虽然我对目前建立无监督系统持保留态度，但我最终得出了乐观的结论：

如果我们能建立（无监督）系统，让系统自主设立目标，在更抽象的层面进行推理，解决问题，那么或许很快就能取得重大进展。

LeCun观点的正确之处在于，我提到的许多问题都是监督学习的普遍问题，而不是针对深度学习的问题，我本可以更清楚地说明这点。许多其他监督学习技术也面临着类似挑战，例如对大型数据集泛化和依赖。我提到的深度学习独有的问题确实相对较少。在我关于深度学习的评论中，确实忽略了这点。

然而，就算他监督学习技术的情况也是如此，也对深度学习的前景没什么帮助。如果有人能设计出一种强大的系统，以无监督方式去利用深度学习技术，那么我们可能需要重新评价深度学习。

然而我并不认为，无监督学习，至少是在当前情况下，能解决我提出的挑战，例如关于推理、层级表示、迁移、健壮性和可解释性等方面的挑战。这只是遥远的设想。

正如波特兰州立大学圣达菲研究所教授Melanie Mitchell所说的：

@ylecun说，Marcus的文章是“完全错误”的，但如果局限至“受监督学习”，那么“错得不那么严重”。我很想看看，目前有哪些无监督学习项目的案例能证明Marcus的说法是错误的。

与此同时我认为，目前还没有原则性的理由，去相信无监督学习能解决我提出的问题，除非首先加入更抽象的、象征性的表达。

七

深度学习不仅是只有卷积网络

这本质上是一种新的编程风格：可微分编程。这个领域的研究者正尝试以这种风格找出可重用的架构。我们已经获得了一些：卷积、pooling、LSTM、GAN、VAE、存储单元、路由单元等。—— Tom Dietterich

从Dietterich的一系列Twitter消息来看，这是一种批评，但我对此感到困扰，因为我实际上是可微编程的支持者，并且一直也在这么说。或许重点在于，深度学习可以更宽泛地去理解。

在任何情况下，我都不会把深度学习和可微编程（例如我引用的一些方法，包括神经图灵机和神经编程）等同起来。深度学习是许多可微系统的组成部分，但这样的系统也基于从符号处理中提取的元素，包括内存单元和变量操作，以及类似路由单元的其他系统。

实际上，我一直在呼吁这方面的整合，并且在最近两篇文章中强调了这些。如果把所有这些东西整合至深度学习能给我们带来AGI，那么我的结论将被证明是正确的：

从某种程度上来说，大脑可以被看作包含“广泛的可复用基元阵列，这些基本单元可以处理类似微处理器中基本指令集的东西。这些阵列并行地整合到一起，就像FPGA这种可重配的集成电路”。正如我在其他论文中所说，为我们的计算系统构建更丰富的指令集将是件好事。

今日互动话题：

你站哪一边？？

翻译丨安妮、维金、李杉

编辑丨蔡蔡

校对丨其奇、LUSEN

发表于: 2018-01-172018-01-17 21:10:17
原文链接：http://kuaibao.qq.com/s/20180117B0X5BD00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

单凭深度学习无法带来通用人工智能，这简直就是“帮倒忙”

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐