【创造人类水平AI】Bengio 纵览深度学习前沿：从 GAN 到极深网络

新智元

发布于 2018-03-27 14:12:57

6120

发布于 2018-03-27 14:12:57

文章被收录于专栏：新智元

【新智元导读】深度学习大牛 Yoshua Bengio 日前在 Beneficial AI 大会上发表题为《创造人类水平AI》的演讲，总结深度学习技术发展及问题。演讲的其中几处要点包括，Bengiio 认为①极深网络（Very Deep NN）能更好地处理序列数据且有望处理高层抽象，相关研究有巨大应用前景；②随着加速神经网络的专门硬件越来越多，接下来几年我们会得到更多计算力；③GAN 虽然是前沿热点，但非常难训练，学习和提取抽象也十分困难；④若不能更好地发现和表示高层抽象，我们将在自然语言理解方面止步不前。Bengio 最后还介绍了他的一个研究方向，如何发现潜在的因果关系，方法是用行动（action）引导表征学习（representation learning）。

2017 年 1 月，Bengio 在 Future of Life 举办的 Beneficial AI 大会上发表演讲《创造人类水平的AI》。19:20 开始是问答环节。

视频内容

以下是新智元对 Bengio 演讲及PPT的整理。

我将在演讲中介绍深度学习的最新进展，以及其与 AI 的关系。我不会告诉你什么时候“魔术”会发生，做这种预测是不理智的。

最近深度学习有很多进展，包括语音识别和计算机视觉，在这两方面都有基准出现，在这些基准上计算机已经训练得表现跟人类一样好——当然，计算机仍然在很多方面都比人差。最近有大进展的另外一个领域是机器翻译，虽然目前为止尚未转变成大规模产业应用。此外，推理、注意力和记忆也很有趣，未来值得关注——以前我们做的更多是模式识别，现在开始进入前几十年经典 AI 研究一直试图攻克的问题，也就是刚才说的推理、注意力和记忆机制。当然，我们在强化学习方面也有很大进展，比如下围棋、玩游戏等等。大家比较少了解的是机器人与控制方面的进步，我认为我们还刚刚处于这方面的开始。最后，有着巨大应用前景的就是极深网络（Very Deep Neural Networks），极深网络能够更好地处理序列数据，并且有望处理抽象——这一点我会在演讲最后具体展开讨论。

我选择注意力机制作为在这里向大家介绍深度学习最新进展的一个例子。选择注意力机制的一个原因是我在这方面做了很多工作，包括将注意力机制运用在机器翻译上面。好几年来，研究界一直有这样一个想法，那就是将机器要翻译的句子转换为一种通用的映射，你可以将这种映射理解为这句话的“含义”，而我们要（机器）学会这种含义并将其转换为另外一种语言。问题是，要翻译的内容越变越长，我们就没有办法做这个事情，只能将其压缩为一定大小的矢量（vector）。假设我要翻译一本书，我会记录我已经翻译到哪里了、接下来要翻译什么，这就是注意力机制派上用场的地方。在要翻译的语言（source language）中，有一个 soft pointer，指向当前翻译的内容附近。可以看出，这都是受人类行为启发而来，其他的还有推理、记忆，以及用神经网络处理数据结构。

要看机器翻译进展到什么地步，我们可以看一下谷歌机器翻译。我们在几年前碰巧发现了 soft-attation，在几个语言对上做测试，那时候表现还很差。现在，谷歌将机器翻译带到了“谷歌规模”，他们的训练数据之大，超过任何人一生可以见到的数据之和，他们的结果也大幅提升。我在这里不多赘述，总之，几年前我们期望发生在机器翻译上的突破已经实现了。

接下来，我要简单说一下为什么我认为深度学习能运作得这么好。在谈这个之前，我需要回溯一下在解决人工智能问题时深度学习的几个要素。其中一个是机器需要很多很多的知识，而这些知识都来自数据。要吸取这些数据，就需要很灵活的模型——以前常用的统计模型可能不够用了。然后，要训练这些模型，就需要巨大的计算力，这也是近年来深度学习飞速发展的原因之一。现在，我们有了 GPU，而且我认为接下来几年，随着产业在计算力方面投入更多，开发各种神经网络专用硬件，计算力的发展还将提速。

使用当前形式的神经网络的好处之一，就是我们能从问题很快得出答案，这也叫做“高计算效率推理”（computationally efficient inference）。现在的很多方法采用近似处理（计算）系统，能够很快得出答案。

但最重要的——我列出的第 5 点，还是神经网络拥有能够战胜维度诅咒的先验知识（prior），下面我具体阐述一下。

先验就是对世界的一些假设（assumption）。深度学习对世界最基本的假设就是“组合性”（compostionality），这个与人类在工程、语言当中使用 compositionality 解决问题一样，我们需要把各种东西（pieces）组合（compose）到一起。这在深度网络中以两种方式得到了自然的体现，一是并行（parallel），一是序列（sequencial）。

并行的方式是指将世界各种特征（feature）、属性（attribute）组合在一起，这些特征、属性都不是互相排斥的，这也是特征工程的由来。另一方面，我们可以从较低层不断做到高层，这样一层一层的表示特征就是序列地表示事物。并行和序列两种方式都十分有用。

再具体讲一下并行的表示，以及为什么特征工程在统计上有用。假设一个人有各种各样的属性，比如是否戴眼镜、是男是女、是不是孩子——当然，实际中这些属性不需要这么明确，可以是更加模糊的属性，但是你可以简单地把过程视为如此。假设我们有 100 个二元的属性，那么就需要 2 的 100 次方那么多的组合来表示这些属性可能的组成，我们没有这么多的训练数据，也就覆盖不了这么多可能的情况。使用并行表示的好处是，我们可以使用很少的数据泛化地表示上述特征，而能够做到这一点，从本质上说是因为神经网络能够在不了解其他属性的情况下，学会各个属性——要检测一个人是否戴眼镜，并不需要了解这个人是男是女、是不是孩子、头发是什么颜色等其他属性，只要知道所见图像中是否有眼镜就行了。很多属性都是这样独立存在的。也就是说，例子或者说参数的增长是线性的（而不是传统统计学意义上指数级的增长），与属性的数量成正比。这样所需的数据量就小了很多。

至于我们眼下 AI 发展到了什么地步，我认为还处在非常早期的阶段。现在关于 AI 的泡沫有很多，媒体也有大篇幅的宣传。实际上，目前深度学习所有在产业上的进展都基于纯粹的监督学习。当前的系统对世界的理解和表示还停留在很基础的层面，学习的是数据的表面线索（superficial clues），在训练数据以外的地方往往就不管用了。例如，只看背景的颜色，如果背景大部分是绿地，那么系统就以为有动物存在，哪怕图片中并没有。我最近致力于研究，同时也非常关心的一个方向是如何让系统学会较为高层的抽象，而且涉及多个时间尺度，因此也就与长期关系有关。

另一个技术上的问题是，我们现在仍然十分依赖单一的方法——backprop，也即 smooth differential predictors。实际上 backprop 并不是我们现在需要的东西，当然这也是目前的研究热点。

我们需要在无监督学习方面做得更好，人类非常善于无监督学习，举例说，一个两岁的孩子能明白简单的物理规则，尽管父母从来没有告诉他牛顿定律（Newtronics）或微分方程。我们花了很多年的时间研究深度监督学习，但每一种当前方法都有其局限。我们最近在自回归模型方面有了很大的进展，但我并不认为这将更上一级台阶，因为这些模型都对于潜变量都学不会较为高层的抽象。我们在变分自编码器（VAE）和对抗生成网络（GAN）方面取得了很大的进展，也都是研究前沿，但 GAN 非常难训练，在学习和提取抽象方面也十分困难。

但尽管如此，我还是要展示一下（GAN 的发展）。下图展示了两年前的 GAN——处理数字很好，但图像还很差。

这是大约一年前，内容仍然局限在一个类型上面。

这是现在，下面全部是系统生成的火山的图像。

（下面是 Bengio 实验室提出的 Plug&Play 生成网络生成的图像。）这看上去不错，但仍然在某些方面非常呆板（stupid）。

好，那我们现在还欠缺什么呢？

一个是更多的自主学习，而其中最重要的就是无监督学习。我认为有一件事情是我们还没有给予足够重视和关注的，那就是如何去发现潜在的因果关系。另外，我们中有些人认为很重要、但目前尚未成功的，是基于模型的强化学习。基于模型的强化学习再结合更强大的无监督学习，就能够使我们更好应对全新的环境。设想自动驾驶汽车，在自动驾驶应用场景下，有些罕见的危险情况，现有手段就不够用了。这种时候就需要系统能够充分预想与训练时迥异的场景，因为这些场景对奖励来说可能是十分重要的。

我们还需要在计算力方面取得进展，不过我认为按照目前的发展趋势，接下来几年我们应该能够得到更多的计算力。

我们需要在多时间尺度处理方面取得进展。

我们将在理解语言方面取得进展，但我认为如果我们不能更好地发现和表示高层抽象，将来有一天会在语言这方面止步不前。

我想指出一点，如果我们想要，我们能够拥有一个对世界十分了解的 AI——当然，到那一天到来还有一段时间。但是，这样的 AI 是被动的，不会对世界产生重大的影响。但是，当拥有了智能的机器以后，我们自然会想要用智能的机器去做事情，去积极地改变世界（active），而不仅仅是回答问题。这就提出了涉及奖励机制的问题，以及我个人非常关注的一点——如何让机器学会人类的价值观。我认为如何教会机器学会人类的价值观，就是训练贤明 AI（wise AI）的方法。

最后我要说的是用行动（action）——在真实世界里行动——引导表征学习（representation learning）。我一直在研究的一个方向是，如何搞清楚数据中各种解释因子间的潜在关系。要在这方面取得进展，如果我们有代理能够在真实世界中行动，行动时能够控制一些因子（factor），这些因子与可以被控制的事情对应，而这些事情又显然是重要的因果元素，那么我们就可以用这些因子来解释一些关于这个世界事物间重要的基本关系（underlying relationships）。

Bengio 在接下来的问答环节中，讨论了他对长短时记忆（LSTM）网络及现有模型缺点、深度学习人才从学术界流向产业界问题的看法。Ray Kurzweil 还在这个环节中表达了他对 Bengio 提出的“compositionality”的理解——实际上，现实世界在各种尺度上都呈现出层次结构，以有序的方式运行，Kurzweil 认为，对不同层次的抽象使用序列模型进行层次分析，将有助于理解世界的本质。请点击视频观看。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-02-02，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习

本文分享自新智元微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

深度学习

登录后参与评论

0 条评论

热度

【创造人类水平AI】Bengio 纵览深度学习前沿：从 GAN 到极深网络

【创造人类水平AI】Bengio 纵览深度学习前沿：从 GAN 到极深网络

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐