17岁高中生都发AI论文了!OpenAI实习生提出分层强化学习新算法

虽然只有 17 岁,但是 Gunn High School 学生 Kevin Frans 已经有 7 年多的编程开发经历了。他最近在 OpenAI 实习期间作为第一作者发表的论文《Meta Learning Shared Hierarchies》已经提交到了 ICLR 2018 大会。

OpenAI 成立近两年,发表了大量研究论文,而这周四的一篇论文却与众不同:其第一作者是名高中生。这位少年英才叫 Kevin Frans,就读于 Henry M. Gunn 高中,现为 OpenAI 实习生。两年前,他 15 岁,首次训练神经网络,一个语音或人脸识别系统。受到 Atari 游戏和 AlphaGo 有关报道的启发,他阅读了大量论文,并部分地复现了它们。「我喜欢让计算机去实现看起来不可能的事。」Frans 说,脸上泛着笑容。他创作过一个交互式网页,可以用漫画风格为线条素描自动上色。

Frans 通过新想法解决了 OpenAI 实验室的一个问题。他取得进步,又卡住,便写信给 OpenAI 研究员 John Schulman 寻求建议。他们共同讨论了 Schulman 的论文《Trust Region Policy Optimization》,Schulman 查看了 Frans 的个人博客,大为吃惊:「从邮件中完全看不出他是一名高中生。」

后来 Frans 申请 OpenAI 实习生职位,面试官是 Schulman。接着他开始了工作,没有任何学位,仅仅是一名高中生。Frans 致力于解决一个机器人和强化学习领域的关键问题:机器如何利用先前已学知识解决新问题?

这对人类来讲易如反掌。即使你是第一次做食谱,也无需重新学习如何做焦糖洋葱和筛面粉。相反,机器学习软件通常不得不重复漫长的训练过程才能解决新问题——甚至面对包含相同元素的问题也不例外。

Frans 的新论文《META LEARNING SHARED HIERARCHIES》在解决这一问题上取得了新进展。「如果它真的成功了,就真正攻破了一个大问题。」Frans 说。他开发了一个算法帮助腿式虚拟机器人学习哪些肢体运动可应用于多个任务,例如步行和爬行。在测试中,它帮助两腿和四腿虚拟机器人完成新任务,包括更快的迷宫导航。OpenAI 的一个视频展示了一个测试中的「蚂蚁」机器人。该论文已被提交至机器学习顶会 ICLR。Schulman 说:「Frans 的论文为这一问题提供了全新思路,并且一些结果超越了前人所有成果。」

作为跆拳道黑带级选手,Frans 面对的挑战不仅仅来自计算机。他对 AI 的部分热情可能源于对 Gunn 高中(加州帕洛阿尔托,硅谷中心)的向往。Frans 说他的研究没有得到父母的帮助,但他并不是家里唯一的计算机高手,他父亲在上市的 FPGA 生产商赛灵思做硅芯片设计。

你可能已经猜到 Frans 是业余的。普林斯顿大学的机器视觉教授 Olga Russakovsky 说道,以这么小的年纪就能在机器学习做出研究贡献是很罕见的。她还说,通常而言,比起拥有悠久传统的以数学或科学等为主题的且有导师指导的课外活动竞赛,尝试机器学习和 AI 对于学生来说要更困难。而要获取计算资源也是一个障碍。Frans 的笔记本电脑的计算力不足以测试他的一个想法,因此他用借记卡申请了一个谷歌云计算服务的账号,将代码放在上面运行。他还鼓励其他对机器学习感兴趣的同学也尝试一下。「最好的(研究机器学习)方式就是走出去,自己动手去尝试。」他说。

Russakovsky 是那些尝试带动更多的高中生一起改进 AI 系统的研究者之一。她的一个动机是她认为目前这个领域中男性、富有人群、白人的比重太大。「AI 是一个将给社会方方面面带来革新的领域,我们不能让某些同质群体单独建立 AI 系统,因为他们不能代表社会的整体。」Russakovsky 说。她联合创建了 AI4ALL,这是一个基金会,用于组织露营活动,为不同背景的高中生提供和 AI 研究者一起工作和学习的机会。

在帕洛阿尔托,Frans 还考虑过帮助下一代的 AI 专家。他有一个 7 岁大的弟弟,「我觉得他对写代码感兴趣,」Frans 说,「也许他再长大一点,我就可以帮助他。」

下面,让我们看看 OpenAI 博客是如何解读 Frans 这篇论文的。

OpenAI 开发了一个分层强化学习算法,它通过学习高级动作以完成一系列任务,比如快速完成需要数千时间步的任务。OpenAI 把算法应用到导航问题时,发现了一组向不同方向步行和爬行的高级动作,这能帮助智能体快速掌握导航任务。

人类通过把复杂的挑战分解为小的、可掌控的部分来解决问题。烤松饼包括一系列高级动作,如称面粉、搅拌鸡蛋、将面粉和鸡蛋的混合物放到平底锅中、打开炉子等等。人类通过把这些已经学会的动作排序来快速学习新任务,即使这个任务可能需要数百万个低级动作,即个人肌肉收缩。

另一方面,现在的强化学习方法通过对低级动作执行粗暴的搜索来运行,需要大量实践才能完成新的任务。这些方法在解决需要大量时间步的任务时非常低效。

OpenAI 的解决方案基于分层强化学习,智能体将复杂的行为表示为一个短序列的高级动作。这使得智能体可以解决更有难度的任务:如果解决方案需要 2000 个低级动作,分层策略可以将其转化为 10 个高级动作的序列,在 10 步序列中搜索比在 2000 步序列中搜索要高效得多。

元学习共享分层(Meta-Learning Shared Hierarchies/MLSH)

OpenAI 新算法 MLSH 学习一个分层策略,其中主策略在多个子策略之间切换。主策略在每 N 个时间步选择一个动作,假设 N=200。N 个时间步执行的子策略构成一个高级动作,对于导航任务而言,子策略对应于朝不同方向行走或爬行。

之前的大部分研究中,分层策略是手动控制的。但是,OpenAI 的目的是通过环境互动发现自动的分层结构。从元学习的角度来看,好的分层可在未知任务的训练过程中快速达到高奖励。因此,MLSH 算法旨在学习能够在未知任务上快速学习的子策略。

OpenAI 在多个任务的分布上进行训练,在每个样本任务中学习新的主策略,同时共享子策略。通过重复训练新的主策略,该过程可以自动找到适合主策略学习动态的子策略。

实验

MLSH 运行一整晚之后,训练出的智能体可以解决 9 个不同的迷宫任务,子策略对应向上、向下、向右移动,然后该智能体可以自行导航通过迷宫。

在 AntMaze 环境中,Mujoco 蚂蚁机器人被放置在 9 个不同的迷宫中,任务是必须从起点到达目的地。MLSH 算法成功地找到多个子策略,这些子策略排序之后可以完成迷宫任务,而这仅需要环境互动。之后,该子策略集可用于完成更大的任务。

代码

MLSH 智能体训练代码和评估这些算法的 MuJoCo 环境:https://github.com/openai/mlsh。

论文:META LEARNING SHARED HIERARCHIES

论文链接:https://s3-us-west-2.amazonaws.com/openai-assets/MLSH/mlsh_paper.pdf

摘要:我们开发了一种学习分层结构策略的元学习方法,通过使用在大量时间步上执行的共享基元策略(primitives-policy)来提高未知任务上的样本效率。具体来说,基元策略集可以在多个任务中共享,也可以在任务特定的策略之间切换。我们提供了一个具体的指标,用来度量此类分层策略的能力,这就导致在未知任务上快速达到高奖励的优化问题。然后,我们展示了一种算法,通过使用现有的强化学习方法,对新任务重复采样并重复设置任务特定的策略,从而端到端地解决该问题。我们成功地发现了一种有意义的行动基元(motor primitive),仅需要与迷宫环境进行互动,就可以使四腿智能体在不同方向上移动。我们还展示了基元的迁移性,以解决长时间尺度的稀疏奖励障碍训练,我们使 3D 仿真机器人使用同样的策略实现鲁棒地步行和爬行。

参考原文:

a.https://www.wired.com/story/meet-the-high-schooler-shaking-up-artificial-intelligence/

b.https://blog.openai.com/learning-a-hierarchy/

来源:机器之心

END

投稿和反馈请发邮件至hzzy@hzbook.com。转载大数据公众号文章,请向原文作者申请授权,否则产生的任何版权纠纷与大数据无关。

原文发布于微信公众号 - 大数据(hzdashuju)

原文发表时间:2017-11-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习算法与Python学习

K-Means算法的10个有趣用例

源 | AI Zone K-means算法具有悠久的历史,并且也是最常用的聚类算法之一。K-means算法实施起来非常简单,因此,它非常适用于机器学习新手爱好者...

3276
来自专栏AI科技评论

业界 | 一文看懂谷歌 NYC 算法与优化业务全景(附重点论文下载)

AI 科技评论消息,众所周知,谷歌的研究团队遍布世界各地,而纽约自然也是非常重要的一个地点,尤其是多个谷歌算法研究小组的孕育地。目前,谷歌算法优化团队为谷歌产品...

3586
来自专栏AI科技评论

视频 | 进化策略让AI开挂,玩游戏不断给自己续命

针对部分具有挑战性的深度强化学习问题,比如雅达利游戏,已经有研究表明,进化策略(Evolution Strategies)是强化学习的可行替代方案。

962
来自专栏CSDN技术头条

Github上的十大机器学习项目

Github上的十大机器学习项目涵盖了一系列函数库、框架和教学资源。我们来看看别人使用的工具和学习的资源。 开源软件是数据科学很重要的一部分。 根据最近的KDn...

29110
来自专栏AI科技大本营的专栏

实战干货 | 这位成功转型机器学习的老炮,想把他多年的经验分享给你

这个年代,不怕你是大牛,就怕大牛还会写文章。 作为AI100智库专家,智亮总是能在口若悬河中,让人深入浅出地学到一堆堆干货,掏心窝子的干货。 多年的实战经验...

39410
来自专栏专知

【专知AI日报0930】一文了解最新AI业界动态

【导读】《专知AI日报》,每天精选AI业界发生的最新最具有影响力的动态事件,为你简文速读了解。 1. 【Yoshua Bengio宣布即将终止Theano的开发...

3097
来自专栏人工智能头条

KDnuggets热门深度学习工具排行:Pylearn2 居首,Caffe第二

1553
来自专栏新智元

Jeff Dean、李飞飞等发起SysML大会,Jeff Dean主题演讲:系统与机器学习融合(45PPT)

新智元报道 来源:SysML 2018 编辑:闻菲、艾霄葆、常佩琦、刘小芹 【新智元导读】Jeff Dean、Michael I.Jordan、李飞飞、...

4078
来自专栏量子位

这个变态级难度的小游戏,只为证明:人类的聪明没那么简单

先别说话。 给自己几分钟的时间,玩一下这个游戏,看看是否能顺利通关。几分钟就好,别为难自己。因为普通人通关平均需要20分钟。 游戏地址:https://high...

3556
来自专栏新智元

论文 | 预测 API 从谷歌、亚马逊等大平台盗取机器学习算法

2016年10月18日, 世界人工智能大会技术分论坛,特设“新智元智库院长圆桌会议”,重量级研究院院长 7 剑下天山,汇集了中国人工智能产学研三界最豪华院长阵容...

3846

扫码关注云+社区

领取腾讯云代金券