深度学习最新梳理:OpenAI研究骨干博士论文

【新智元导读】Wojciech Zaremba 是 Hinton、Ilya Sutskever 一脉相承的弟子,在谷歌大脑实习过,在 Facebook 受过 LeCun 等人指导,现任 OpenAI 研究员,可谓深度学习新一代接班人中的领军人物之一。Zaremba 在纽约大学读博期间参与创建了 OpenAI,是 8 名初创研究成员之一。本文是他今年 5 月博士毕业论文,是对深度学习一项最新的梳理,其成果包括:测量了当前神经网络学习一些简单程序的能力;设计了一种新的卷积神经策略,大幅提高泛化性能;提出了几种 Q-learning 增强方法;设计了一种寻找符号表达式有效版本的新语言框架,还创造了为数不多的理论上图灵完备的统计模型。

  • 【题目】从数据中学习算法(Learning Algorithms from Data)
  • 【作者】纽约大学 Wojciech Zaremba

Wojciech Zaremba,现任 OpenAI 研究员,也是 OpenAI 8 位初创研究团队之一。曾在 Facebook 人工智能实验室(FAIR)工作,接受 Rob Fergus 和 Yann LeCun 的指导。多次在谷歌大脑项目实习,并由此结识了 Geoffrey Hinton 和 Ilya Sutskever。参与开发了 Google+ 基于深度学习照片搜索的功能。来源:cs.nyu.edu/

使用 Semantic Search 搜索 Wojciech Zaremba 的结果。来源:Semantic Search

关注新智元(AI_era),回复“0531”下载论文(PDF167页)

致谢

读博是我人生中最好的一个决定。过去几年里,我有幸结识了一批极富创意和激情的人,他们对我的博士研究生涯造成了深远的影响。其中一位是 Ilya Sutskever,他帮助我学会了该问什么问题以及如何快速给出解答。他的宝贵建议让我能在保持理智的同时解决那些处于疯狂和理智边缘的问题。另一个我要感谢的人是 Rob Fergus,Rob 教会了我如何组织想法并把它们说出来然后影响别人。沟通技巧对交换想法至关重要。我还要感谢很多人:Geoffrey HintonYann LeCun、Joan Bruna、Emily Denton 和 Howard Zhou,以及 Facebook 人工智能实验室(FAIR)谷歌大脑 团队。就我个人而言,我非常感谢我的女友 Laura Florescu 的支持和关爱,她是我的避风湾。此外,我还要感谢那些教我做人的道理以及在我科研生涯早期给予我启发的人:我的父母 Irena & Franciszek Zaremba,我的成长离不开他们给予我的许多关爱和思考空间;我的兄弟 Michał & Maciej Zaremba,他们对各自梦想的追求感染了我。我还要感谢早年几位点燃我研究计算机激情的老师,包括 Jadwiga Grodzicka、Zygmunt Turczyn、Wojciech Zbadyński 和 Piotr Pawlikowski。最后,我非常感谢 OpenAI 团队让我成为这样一个非凡组织的一员,这里的环境让我改写了自我创造力的极限。

摘要

统计机器学习涉及的是学习那些对观察进行描述的模型。在诸如机器翻译或对象识别等任务中,由于我们无法写出确定的程序来解决这些问题,我们只能通过数据来训练我们的模型。只有当一个统计模型能泛化到那些未曾预见过的数据时,它才是有用的。Solomonoff 证明,我们应该选择与观察到的数据相一致的模型,并在这些模型中选择那个能在最大程度上被简化压缩的模型,因为这样选出的模型能确保可能的最优泛化。模型的可能最优压缩的大小被称为模型的 Kolmogorov 复杂度。我们把 算法 定义为一个具有小的 Kolmogorov 复杂度的函数。

本论文概述了从数据中学习算法的问题,并展示了对这个问题的几个不完全的解决方法。我们的数据模型主要是神经网络模型,因为神经网络模型已被证明在对象识别、语言建模、语音识别等领域取得了成功。首先,我们检验了传统神经网络的可训练性在经验上的极限。之后,我们扩展了模型,为它提供了界面,界面使得模型能够读取内存、对输入进行访问、延迟预测。该模型学习了如何通过 REINFORCE 和 Q-learning 等强化学习技术使用界面。接下来我们检验了,模型能否自动重新发现像卷积层这样的当代算法。我们表明,实际上有可能把卷积作为范围广泛的各种模型中的一种特殊情形来进行学习。最后,我们探究了,是否有可能直接枚举各个短程序,从而在其中找出给定问题的解决方案。我们的方法是,对各个程序的先验概率进行学习,以便能有效地探索这些程序。

目录

摘要

1,导论

1.1. 背景——神经网络作为函数逼近器

1.1.1 卷积神经网络 (CNN)

1.1.2 循环神经网络(RNN)

1.1.3 长短期记忆神经网络 (LSTM)

2,相关研究

3,神经网络可训练性的极限

3.1 任务

3.2 课程学习

3.3 传递输入

3.4 实验

3.4.1 复制任务的结果

3.4.2 加法任务的结果

3.4.3 程序评估的结果

3.5 隐藏状态分配假设

3.6 讨论

4,具有外部界面的神经网络

4.1 模型

4.2 任务

4.3 监督实验

4.4 无监督的行动

4.4.1 术语

4.4.2 REINFORCE 算法

4.4.3 Q-learning

4.4.4 实验

4.5 讨论

5,学习卷积算法

5.1 空间建构

5.1.1 Locality via W

5.1.2 图像的多分辨率分析

5.1.3 深度局部互联网络

5.2 谱建构

5.2.1 对加权图的 Harmonic Analysis

5.2.2 经由 Laplacian 谱扩展卷积

5.2.3 重新发现标准卷积神经网络

5.2.4 对平滑谱乘子的 O(1) 的建构

5.2.5 多重网格

5.3 数值实验

5.3.1 子样本 MNIST

5.3.2 球面 MNIST

6,在属性语法中学习算法

6.1 玩具的例子

6.2 问题陈述

6.3 属性语法

6.4 对符号表达式的表示

6.4.1 数值表示

6.4.2 表示学习

6.5 树的线性组合

6.6 搜索策略

6.6.1 随机策略

6.6.2 n-gram

6.6.3 递归神经网络

6.7 实验

6.7.1 使用表示学习进行表达式归类

6.7.2 有效发现同一性

6.7.3 (ΣAA^T)k 的解决方案

6.7.4 (RBM-1)k 的解决方案

6.7.5 (RBM-2)k 的解决方案

6.8 讨论

7,结论

7.1 对贡献的总结

7.2 未来研究方向

参考文献

结论

1,总结论文的贡献

本文关注从数据中学习算法这个问题,因为我们认为这个问题是人工智能领域中的关键问题。我们在这个方向上做出了这几个贡献:

  • 测量了现代神经网络能在多大程度上学会诸如复制、数字加法和解释 Python 代码等算法。(第三章)
  • 设计了一种新的课程学习策略,该策略能大幅地提高泛化水平。(第三章)
  • 引入了具体的界面和方法,通过 REINFORCE 和 Q-learning 等方法来训练使用这些界面的神经网络。(第四章)
  • 提出了对 Q-learning 的若干强化方法,包括 dynamic discount 和 penalty on the Q-function 等。(第四章)
  • 发明了一种对 REINFORCE 的梯度验证技术。(第四章)
  • 创造了一个罕见的在理论上具有图灵完备性的统计模型(第四章)。不过,在经验上我们的模型并不能解决所有要求图灵完备的任务。
  • 展示了如何从数据中重新发现卷积算法。(第五章)
  • 描述了卷积与图在调和分析的一种联系。(第五章)
  • 创造了一个新的语法框架,可用于发现有效的符号表达式。(第六章)
  • 整合各种机器学习技术学习先验概率,用此先验概率引导对各个符号表达式的搜索。(第六章)
  • 使用递归神经网络学习了一种对数学结构的连续表示,让许多其他学习方法也能够应用于符号领域。(第六章)
  • 在表达式之间发现了许多新的数学同一性,这显著减少了某些表达式的计算复杂度。(第六章)

第三章表明,我们很容易欺骗自己、让自己以为神经网络已经能够学习那些具有小的 Kolmogorov 复杂度的概念。而当我们无法进行泛化时,这标志着这种学习并未发生。大数据神话的兴起使人们更容易误以为模型能理解数据,而实际上只是模型记忆数据的能力越来越强而已。

在第四章,我们为神经网络增加了界面,激励神经网络来发现那些具有小的 Kolmogorov 复杂度的解决方案。界面使得我们能够以更简练的方式来表达某些概念,并激励模型去寻找具有小的 Kolmogorov 复杂度的解决方案。这一方法频繁地产生出一些能被泛化到整个数据分布的解决方案。不过,有些时候所产生的解决方案无法泛化。在这些情况下,模型没有学习到深层的算法。即使在那些最简单的、所有界面上的行动都受到监督的学习情境中,也会发生这种失败。我们展示了这种困难发生在使用神经网络来表达算法的时候,而非发生在使用强化学习来引导搜索的时候。

第五章采取了与第四章相反的道路。在第五章,我们不是去学习那些超出了现有技术的算法,而是去探究我们能否自动地重新发现目前使用的算法。特别地,我们致力于重新发现卷积神经网络。我们通过抽象出网格、位置和多分辨率等概念来实现这一目标。

最后,在第六章,我们提出了一种能自动发现对线性代数中的数学公式进行快速现实的方法。我们直接在一个受限的短程序集合中进行搜索。这一过程受到了 Solomonoff induction 的鼓励。不过,需要探索的程序的数量随其长度而指数增长,这就使得该搜索在计算上不可行。为了令搜索变得 tractable, 我们用 n-grams 和一个神经网络来计算先验概率,并用先验概率来引导搜索。我们自动发现了几个此前未知的数学公式。

2,未来研究方向

我们相信未来一个好的机器学习系统必须能内在地对各种算法进行编码。在此,我们提出了关于如何实现这一目标的几个方向:

迁移学习,终身学习,课程学习。所有这些概念都有助于训练模型在复杂度越来越大的任务上进行学习。模型必须把它的知识从简单任务迁移到复杂任务上。例如,儿童逐步地学习数学,从算数和几何开始。只有当他们掌握了这些主题后,他们才会迁移到微分之类的更高级的主题。我们应该怎样调整我们的模型、训练算法,从而能以类似的方式实现迁移学习呢?

学习优化过程。存在着诸如 SGD, Adam, Hessian-Free, k-fac 等许多优化技术。优化也是一种算法。我们要问的是,是否可能学习到“优化”的核心结构。

永久无限的存储。一些新近的模型提供了使用外部内存的方法。这些内存可以呈现为多种拓扑结构:它可以作为一个栈、一个哈希表或分层哈希表被访问。目前,外部内存被用于临时存储,存储的时长仅限于处理单一样本所需的计算时间。换句话说,在不同的样本之间,内存被重置。神经网络的权重提供了一种永久存储的方法,但它们具有固定的拓扑结构。是否可能在永久内存中存储神经网络全中,并按需访问它们呢?这类存储将能鼓励算法分享。

上面的许多想法都很诱人,很难确定做哪一个。吴恩达 在 2015 年曾表示,要根据想法对未来的潜在影响力进行抉择。在选择下一步将做什么时,我将遵循这一建议。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-05-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习算法与Python学习

数据科学家必用的25个深度学习的开放数据集!

原文:https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-le...

582140
来自专栏CreateAMind

结构知识的泛化-从海马体学习的模型

38360
来自专栏新智元

【1996~2016】盘点 20 年 AAAI 人工智能最佳论文

【新智元导读】新智元汇集计算机科学领域1996年到2016年人工智能领域最佳论文,附上题目及摘要的中文翻译,并对这些作品进行系统考察,从中可以看出人工智能这门学...

45590
来自专栏数学人生

用强化学习玩文本游戏

随着 DeepMind 成功地使用卷积神经网络(CNN)和强化学习来玩 Atari 游戏,AlphaGo 击败围棋职业选手李世石,强化学习已经成为了机器学习的一...

67510
来自专栏机器之心

论文结果难复现?本文教你完美实现深度强化学习算法DQN

33870
来自专栏腾讯高校合作

盘点2016-2017 EDA及芯片领域的神经网络热点论文

我们结合2017年的 FPGA 和 ISSCC 会议上的代表性工作,给出了神经网络的一些新热点和研究趋势。

435150
来自专栏AI研习社

意想不到的盟友:改善隐私问题可以带来表现更好的机器学习模型

AI 研习社按:Nicolas Papernot 在 2017、2018 连续两年的 ICLR 上都发表了关于差分隐私方法 PATE 的论文。如今大家都意识到了...

16430
来自专栏美团技术团队

强化学习在美团“猜你喜欢”的实践

“猜你喜欢”是美团流量最大的推荐展位,位于首页最下方,产品形态为信息流,承担了帮助用户完成意图转化、发现兴趣、并向美团点评各个业务方导流的责任。经过多年迭代,目...

33240
来自专栏大数据文摘

从AlexNet到胶囊网络,CNN这五年(视频详解)

16650
来自专栏AI科技评论

干货 | 意想不到的盟友:改善隐私问题可以带来表现更好的机器学习模型

AI 科技评论按:Nicolas Papernot 在 2017、2018 连续两年的 ICLR 上都发表了关于差分隐私方法 PATE 的论文。如今大家都意识到...

13330

扫码关注云+社区

领取腾讯云代金券