【田渊栋年度总结】FAIR强化学习研究进展,理论研究竞争也相当激烈

作者:田渊栋

【新智元导读】FAIR研究科学家田渊栋今天在知乎发表他的2017年工作总结。今年的主要研究方向是两个:一是强化学习及其在游戏上的应用,二是深度学习理论分析的探索,文章介绍了这两个方向的研究,在ICML、NIPS等发表的工作。

今年的主要研究方向是两个:一是强化学习及其在游戏上的应用,二是深度学习理论分析的探索

今年理论方向我们做了一些文章,主要内容是分析浅层网络梯度下降非凸优化的收敛性质。首先是上半年我自己 ICML 的这篇[1],分析了带一层隐层的网络,且输入为高斯分布时的收敛性情况。这篇文章,尤其是去年在 ICLR 17 workshop 上发表的不完全版,可以算是此方向的头一篇,给分析神经网络的非凸问题提供了一个思路。之后 CMU 的杜少雷过来实习,又出了两篇拓展性的文章。两篇都在浅层卷积网络上做了分析,一篇[2]去掉了高斯假设,在一般的输入分布下可以证明梯度下降收敛;另一篇[3]则在高斯假设下分析同时优化两层权重时的情况,证明了并非所有局部极小都是全局最小,这个就推翻了之前很多论文力图推动的方向。

这整个方向背后是对于深度学习原理的探讨和严格化定量化的努力。很容易证明一般的非凸优化要得到最优解至少得要进行地毯式轰炸,做指数级的穷举;而神经网络的效果如此之好,一定有它超出一般非凸优化的特殊原因。我的猜想是因为数据集的 “自然” 分布和特定的网络结构(如卷积)联合起来导致的结果。这种思路同时也将 “最优化得到的解” 和机器学习中提的 “泛化能力” 结合了起来——如果解是因为数据分布而收敛得到的,那当然也能适应于服从同样分布的测试样本,这样泛化能力就有了保证。这样的想法也和我在博士阶段的工作一脉相承:即利用输入数据分布的特殊结构(如图像扭曲操作的群结构),构造新的算法,使得在同样保证恢复未知参数的条件下,样本复杂度更低。

接下来,如何将 “自然” 分布严格化定量化,如何证明在实际系统中用的多层非线性网络结构能抓住这个自然分布并且收敛,就是最大的问题。希望我们在 2018 年继续能做出有意思的工作来。

附带说一句,就算是较为理论的方向,今年的竞争也比较激烈,我在投完 ICML 之后一周,就看到 Arxiv 上有一篇相似的工作出现,第一部分和我推导出的结论完全一样,只是方法不同,可见人工智能领域竞争的激烈程度。

另一个方向是强化学习和游戏。今年我们主要做了系统方面的工作,一个是快速轻量灵活的 ELF 强化学习训练平台(见《黑暗森林中的光之精灵》一文,代码在这里),这个工作已经被今年的 NIPS 接收为 Oral 并且演讲过了[4]。ELF 用多线程代替多进程进行强化学习的训练,并且简化 Python 的接口设计,让只看过教科书的强化学习新人们都能有效率地训练模型。之后我们在 ELF 上面搭建了一个微缩版的即时战略游戏 MiniRTS。MiniRTS 可以以极快的速度模拟(单核 4 万帧每秒,在服务器上运行 1 万局游戏评估模型性能只需 2 分钟),有利于在有限资源限制下的即时战略游戏 AI 研究。在 MiniRTS 上我们用 Actor-Critic 模型训练出一些有意思的人工智能。在这个基础上,我们继续试验了各种参数组合,分析了训练所得智能的一些行为,并且尝试基于模型的强化学习 (model-based RL),获得了一些结果,这篇是放在今年的 NIPS Deep RL Symposium 上,见这里[5]。

还有一个平台是利用现存四万多人工设计的三维房屋(SUNCG 数据集)构造出的 House3D 平台(代码已经开源),在这个平台中我们可以让智能体看到当前视野中的各种物体,获取深度信息和物体类别标注,还可以四处行走探索并遵循基本物理规律。我们挑选了 200 间房屋进行寻路训练,并且在 50 间新房屋中确认了寻路智能的泛化能力。这篇也在 NIPS Deep RL Symposium 上亮相。

明年我们会尝试各种强化学习的已有算法,诸如层次式强化学习(Hierarchical RL),基于模型的强化学习(model-based RL)等等,并且设计新算法,一方面让我们的智能体变得更聪明,另一方面也希望构建一个公开标准的强化学习算法平台库,让大家都能重复(深度)强化学习这个方向的工作,从而推动整个领域的发展。

参考链接:

[1]An Analytical Formula of Population Gradient for two-layered ReLU network and its Applications in Convergence and Critical Point Analysis, arXiv:1703.00560

[2]When is a Convolutional Filter Easy To Learn? arXiv:1709.06129

[3]Gradient Descent Learns One-hidden-layer CNN: Don't be Afraid of Spurious Local Minima arXiv:1712.00779

[4]ELF: Extensive, Lightweight and Flexible Framework for Game Research http://yuandong-tian.com/nips17_oral_final.pdf

[5]https://drive.google.com/file/d/1LMyidobtWabKmQysyhEnWwriI7X2rgQ3/view

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-12-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

纽约大学神经学教授Eero Simoncelli万字解析:机器生成的图像为何能骗过你的眼睛?

AI科技评论按:在刚刚闭幕的ICLR2017上,纽约大学神经学、数学、心理学教授Eero Simoncelli作为特邀嘉宾分享了他在机器表征、人类感知方面的研究...

45280
来自专栏AI研习社

最实用的 50 篇文章,教你搭建机器学习 APP

2017 年 1 月到 12 月,我们比较了近 2 万篇关于创建机器学习应用程序的文章,并挑选了排名较前的前 50 篇供大家学习参考。 我们相信,跟着这个领...

550110
来自专栏人工智能头条

如何让机器获得幽默感——Google图学习技术揭秘

19050
来自专栏华章科技

人人都能看懂的机器学习!3个案例详解聚类、回归、分类算法

机器学习,一言以蔽之就是人类定义一定的计算机算法,让计算机根据输入的样本和一些人类的干预来总结和归纳其特征和特点,并用这些特征和特点和一定的学习目标形成映射关系...

12640
来自专栏量子位

创新工场王嘉平开讲:low-level的计算机视觉

颜萌 整理编辑 量子位 出品 | 公众号 QbitAI ? 近日,在DeeCamp创新工场深度学习训练营期间,创新工场AI工程院副院长王嘉平开讲《low-le...

33150
来自专栏AI科技大本营的专栏

听说现在赶火车刷脸就进站了!Out,跟脸有关的最新玩法是你说什么,表情包就演什么

十一结束,假期开工返乡潮仍在继续。就在昨日,一则视频刷爆朋友圈。 视频里,北京、广州、上海、成都、武汉的火车站都相继开通自助“刷脸”进站通道。 乘客惊呼“连...

25540
来自专栏新智元

【AAAI oral】阿里北大提出新attention建模框架,一个模型预测多种行为

作者:周畅,白金泽,宋军帅,刘效飞,赵争超,陈修司,高军 【新智元导读】本文提出一种基于注意力机制的用户异构行为序列的建模框架,并将其应用到推荐场景中。作者提出...

44690
来自专栏机器之心

ACL 2017 杰出论文公布,国内四篇论文入选(附解读)

机器之心报道 参与:PaperWeekly、机器之心 国际计算语言学协会 (ACL,The Association for Computational Lin...

42270
来自专栏AI科技评论

干货 | 深度学习的可解释性研究(一):让模型「说人话」

不以人类可以理解的方式给出的解释都叫耍流氓,因此,我们要让模型「说人话」。只要记住这三个字,你就差不多把握了可解释性的精髓所在。

14030
来自专栏鸿的学习笔记

关于机器学习应该知道的事(上)

这是一篇翻译,为了能有效率的读下去,特地分成两篇。因为只是作为我个人学习的记录,所以没有考虑到微信排版之类的。内容才是王道。

9220

扫码关注云+社区

领取腾讯云代金券