Yann Lecun CoLR演讲全解读：机器该如何像动物和人类一样有效学习？

AI科技评论

发布于 2018-03-14 14:55:47

7700

发布于 2018-03-14 14:55:47

文章被收录于专栏：AI科技评论

AI科技评论按：本文为Yann Lecun在CoRL 2017大会上做的演讲的概述，AI科技评论作为受邀媒体参加了CoRL大会，所有资料来自于官方公开资源整理。

Lecun为Facebook AI研究院院长，他同时也是纽约大学的终身教授。他因著名的卷积神经网络（CNN）相关的工作而被人称为CNN之父。在演讲中，Lecun回顾了其早期利用神经网络用于机器人的研究做了一个基本的介绍，在当时Lecun的论文被RSS拒稿，然而今天CNN却在人工智能领域大放异彩，技术的发展往往是螺旋式且兼具跳跃性，实在难以预料。

接着Lecun重点讲解了他的成名作——卷积神经网络（CNN），并分析了阻碍人工智能继续前进的因素。在他看来，现在的人工智能系统距离真正的人工智能相去甚远，要想让机器像人或动物一样有效学习，需要更好地就无监督学习上继续研究，并讨论了利用对抗网络进行无监督学习的重要性。

Lecun的演讲标题是：《机器该如何像动物和人类一样有效学习》？

Lecun先从今年9月的CCN（Cognitive Computational Neuroscience，认知计算神经科学）大会上，MIT的认知计算专家Josh Tennenbaum的一句话说起：我们现在看到的所有AI系统都不是真正的AI。这是因为，大脑的学习效率比我们目前所有的机器学习方法效率都要高：监督学习需要大量的范例，增强学习需要上百万次试错，这也是我们的机器人无法像猫或老鼠一样灵活、以及无法造出拥有常识的对话系统的原因。

我们可以通过强化学习训练机器识别如桌子、凳子、够、汽车、飞机等实例，只要我们有足够的计算能力和训练样本，机器业能识别出之前未见过的东西。

Lecun还比较了传统的模式识别方法、改进的模式识别方法、深度学习的不同。

从2013年到2017年，从VGG到DenseNet（这也是Facebook用于图像识别的网络结构），深度卷积神经网络变得越来越深，识别效果也变得越来越好。

而在Lecun将机器学习应用于机器人的研究在2003年，当时DARPA找到Lecun，通过模仿学习进行避障的研究。2005年，Lecun将论文投给了第一届RSS（机器人领域的顶级学术会议之一），但很不幸的被拒了，随后Lecun将论文转投当年的NIPS，论文被收录发表。而这一研究的阶段性成果也打动了DARPA，并催生了之后的DARPA LAGR项目（这么说来，Lecun在机器人方面的研究天赋是不是被RSS耽误了呢）。

DARPA LAGR：一个将机器学习应用于地面机器人、基于感知的自主导航项目。

Lecun在机器人上使用了一个叫ComNet的网络，在当时算是非常前卫的做法。

当时的识别效果，在地图上设定终点后可自主进行路线规划。

然而，每秒只能进行一帧图像的识别，无法有效躲避突然出现的行人。

若干年后的另一个研究，将视频中的场景识别为不同种类，如道路、汽车、建筑等。当时还缺乏对应的数据集，需要进行大量的标注。由于缺乏数据，这并不是卷积神经网络的强项，只是相比其他方法来说算是一个不错的选择而已（直到2012年ImageNet上的突破）。

2012年在FPGA上跑到20帧，这也推动了之后如Mobileye和NVIDIA在无人驾驶上的研究。

其他的应用，如将Mask R-CNN用于实例分割；

Mask R-CNN在COCO数据集上的图像分割结果。

以及姿态预估的结果；

3D语义识别；

用于翻译；

视觉推理中的推断和执行（虽然Lecun怼过Jurgen，但不得不说LSTM还是很有用的嘛）；

诸多的用促成了FAIR的诸多开源项目（Lecun说，这里大多数项目自己没有参与，他只是在说别人的研究工作）；

展望未来，Lecun认为阻碍人工智能继续前进的因素在于目前我们打开AI的方式不正确，像人或动物都无需大量的标识数据或者大量试错；

这当中的差别在于“常识”，就是通过想象来填补空白的能力，这也是某种形式的非监督学习。

大多数人或动物的学习方式都是非监督学习。

人类具有通过观察形成常识的能力，例如“Josh拿起包离开了房间”，我们人类很容易理解相应的行为，但很难教机器去理解这一系列动作；

从认知科学的角度，人类在婴儿时期学习到各种概念的时间表；

为什么下需要进一步发展非监督学习？这是由于用于训练一个大的学习机器的必要样本量取决于我们要求它能预测多少信息，你对机器要求越多，所需要的数据也越多。在人类大脑中有10^14个神经元触突，而人的一生大概有10^9秒，这意味着在人类大脑这个系统中参数远远大于数据量，而机器想要赶上人类，必须模仿人类的非监督学习方式。