17岁高中生都发AI论文了!OpenAI实习生提出分层强化学习新算法

机器之心编译

来源:Wired、OpenAI等

机器之心编译

参与:黄小天、路雪、刘晓坤

虽然只有 17 岁,但是 Gunn High School 学生 Kevin Frans 已经有 7 年多的编程开发经历了。他最近在 OpenAI 实习期间作为第一作者发表的论文《Meta Learning Shared Hierarchies》已经提交到了 ICLR 2018 大会。

OpenAI 成立近两年,发表了大量研究论文,而这周四的一篇论文却与众不同:其第一作者是名高中生。这位少年英才叫 Kevin Frans,就读于 Henry M. Gunn 高中,现为 OpenAI 实习生。两年前,他 15 岁,首次训练神经网络,一个语音或人脸识别系统。受到 Atari 游戏和 AlphaGo 有关报道的启发,他阅读了大量论文,并部分地复现了它们。「我喜欢让计算机去实现看起来不可能的事。」Frans 说,脸上泛着笑容。他创作过一个交互式网页,可以用漫画风格为线条素描自动上色。

Frans 通过新想法解决了 OpenAI 实验室的一个问题。他取得进步,又卡住,便写信给 OpenAI 研究员 John Schulman 寻求建议。他们共同讨论了 Schulman 的论文《Trust Region Policy Optimization》,Schulman 查看了 Frans 的个人博客,大为吃惊:「从邮件中完全看不出他是一名高中生。」

后来 Frans 申请 OpenAI 实习生职位,面试官是 Schulman。接着他开始了工作,没有任何学位,仅仅是一名高中生。Frans 致力于解决一个机器人和强化学习领域的关键问题:机器如何利用先前已学知识解决新问题?

这对人类来讲易如反掌。即使你是第一次做食谱,也无需重新学习如何做焦糖洋葱和筛面粉。相反,机器学习软件通常不得不重复漫长的训练过程才能解决新问题——甚至面对包含相同元素的问题也不例外。

Frans 的新论文《META LEARNING SHARED HIERARCHIES》在解决这一问题上取得了新进展。「如果它真的成功了,就真正攻破了一个大问题。」Frans 说。他开发了一个算法帮助腿式虚拟机器人学习哪些肢体运动可应用于多个任务,例如步行和爬行。在测试中,它帮助两腿和四腿虚拟机器人完成新任务,包括更快的迷宫导航。OpenAI 的一个视频展示了一个测试中的「蚂蚁」机器人。该论文已被提交至机器学习顶会 ICLR。Schulman 说:「Frans 的论文为这一问题提供了全新思路,并且一些结果超越了前人所有成果。」

作为跆拳道黑带级选手,Frans 面对的挑战不仅仅来自计算机。他对 AI 的部分热情可能源于对 Gunn 高中(加州帕洛阿尔托,硅谷中心)的向往。Frans 说他的研究没有得到父母的帮助,但他并不是家里唯一的计算机高手,他父亲在上市的 FPGA 生产商赛灵思做硅芯片设计。

你可能已经猜到 Frans 是业余的。普林斯顿大学的机器视觉教授 Olga Russakovsky 说道,以这么小的年纪就能在机器学习做出研究贡献是很罕见的。她还说,通常而言,比起拥有悠久传统的以数学或科学等为主题的且有导师指导的课外活动竞赛,尝试机器学习和 AI 对于学生来说要更困难。而要获取计算资源也是一个障碍。Frans 的笔记本电脑的计算力不足以测试他的一个想法,因此他用借记卡申请了一个谷歌云计算服务的账号,将代码放在上面运行。他还鼓励其他对机器学习感兴趣的同学也尝试一下。「最好的(研究机器学习)方式就是走出去,自己动手去尝试。」他说。

Russakovsky 是那些尝试带动更多的高中生一起改进 AI 系统的研究者之一。她的一个动机是她认为目前这个领域中男性、富有人群、白人的比重太大。「AI 是一个将给社会方方面面带来革新的领域,我们不能让某些同质群体单独建立 AI 系统,因为他们不能代表社会的整体。」Russakovsky 说。她联合创建了 AI4ALL,这是一个基金会,用于组织露营活动,为不同背景的高中生提供和 AI 研究者一起工作和学习的机会。

在帕洛阿尔托,Frans 还考虑过帮助下一代的 AI 专家。他有一个 7 岁大的弟弟,「我觉得他对写代码感兴趣,」Frans 说,「也许他再长大一点,我就可以帮助他。」

下面,让我们看看 OpenAI 博客是如何解读 Frans 这篇论文的。

OpenAI 开发了一个分层强化学习算法,它通过学习高级动作以完成一系列任务,比如快速完成需要数千时间步的任务。OpenAI 把算法应用到导航问题时,发现了一组向不同方向步行和爬行的高级动作,这能帮助智能体快速掌握导航任务。

人类通过把复杂的挑战分解为小的、可掌控的部分来解决问题。烤松饼包括一系列高级动作,如称面粉、搅拌鸡蛋、将面粉和鸡蛋的混合物放到平底锅中、打开炉子等等。人类通过把这些已经学会的动作排序来快速学习新任务,即使这个任务可能需要数百万个低级动作,即个人肌肉收缩。

另一方面,现在的强化学习方法通过对低级动作执行粗暴的搜索来运行,需要大量实践才能完成新的任务。这些方法在解决需要大量时间步的任务时非常低效。

OpenAI 的解决方案基于分层强化学习,智能体将复杂的行为表示为一个短序列的高级动作。这使得智能体可以解决更有难度的任务:如果解决方案需要 2000 个低级动作,分层策略可以将其转化为 10 个高级动作的序列,在 10 步序列中搜索比在 2000 步序列中搜索要高效得多。

元学习共享分层(Meta-Learning Shared Hierarchies/MLSH)

OpenAI 新算法 MLSH 学习一个分层策略,其中主策略在多个子策略之间切换。主策略在每 N 个时间步选择一个动作,假设 N=200。N 个时间步执行的子策略构成一个高级动作,对于导航任务而言,子策略对应于朝不同方向行走或爬行。

之前的大部分研究中,分层策略是手动控制的。但是,OpenAI 的目的是通过环境互动发现自动的分层结构。从元学习的角度来看,好的分层可在未知任务的训练过程中快速达到高奖励。因此,MLSH 算法旨在学习能够在未知任务上快速学习的子策略。

OpenAI 在多个任务的分布上进行训练,在每个样本任务中学习新的主策略,同时共享子策略。通过重复训练新的主策略,该过程可以自动找到适合主策略学习动态的子策略。

实验

MLSH 运行一整晚之后,训练出的智能体可以解决 9 个不同的迷宫任务,子策略对应向上、向下、向右移动,然后该智能体可以自行导航通过迷宫。

在 AntMaze 环境中,Mujoco 蚂蚁机器人被放置在 9 个不同的迷宫中,任务是必须从起点到达目的地。MLSH 算法成功地找到多个子策略,这些子策略排序之后可以完成迷宫任务,而这仅需要环境互动。之后,该子策略集可用于完成更大的任务。

代码

MLSH 智能体训练代码和评估这些算法的 MuJoCo 环境:https://github.com/openai/mlsh。

论文:META LEARNING SHARED HIERARCHIES

论文链接:https://s3-us-west-2.amazonaws.com/openai-assets/MLSH/mlsh_paper.pdf

摘要:我们开发了一种学习分层结构策略的元学习方法,通过使用在大量时间步上执行的共享基元策略(primitives-policy)来提高未知任务上的样本效率。具体来说,基元策略集可以在多个任务中共享,也可以在任务特定的策略之间切换。我们提供了一个具体的指标,用来度量此类分层策略的能力,这就导致在未知任务上快速达到高奖励的优化问题。然后,我们展示了一种算法,通过使用现有的强化学习方法,对新任务重复采样并重复设置任务特定的策略,从而端到端地解决该问题。我们成功地发现了一种有意义的行动基元(motor primitive),仅需要与迷宫环境进行互动,就可以使四腿智能体在不同方向上移动。我们还展示了基元的迁移性,以解决长时间尺度的稀疏奖励障碍训练,我们使 3D 仿真机器人使用同样的策略实现鲁棒地步行和爬行。

参考原文:

a.https://www.wired.com/story/meet-the-high-schooler-shaking-up-artificial-intelligence/

b.https://blog.openai.com/learning-a-hierarchy/

本文为机器之心编译,转载请联系本公众号获得授权。

本文分享自微信公众号 - 机器之心(almosthuman2014)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-10-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

CCAI 2017 | 自然语言处理的十个发展趋势

文/CSDN 苏靖芝 近日,由中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办,CSDN、中国科学院自动化研究所承办的第三届中国人工智能大会(CCAI 2017...

29860
来自专栏AI科技大本营的专栏

AI 一分钟 | 微软推出全新人工智能平台;多名用户反映亚马逊 Echo 智能音箱突然发笑

整理 | Leo 一分钟AI 1、华为麒麟670曝光,定位中端新增AI功能 2、海尔与百度启动智慧家庭战略合作,加速布局语音交互技术商业化 3、多名用户反映亚马...

38070
来自专栏AI科技大本营的专栏

最近比较火的10篇大数据文章,看看你错过了哪篇?

翻译 | AI科技大本营(rgznai100) 参与 | Shawn Sicara团队精挑细选,了10篇在今年7月发表的大数据相关文章(Sicara是一家从事A...

37260
来自专栏AI科技大本营的专栏

AI 技术讲座精选:5款新手也能快速构建的深度学习应用(使用Python)

前 言 深度学习从根本上改变了我们周围的一切。很多人认为必须成为深度学习的专家,才能将深度学习用到自己的应用中。然而,实际并非如此。 在我之前的文章中,我讨论了...

35770
来自专栏AI科技大本营的专栏

谷歌大脑深度学习从入门到精通视频课程[6.6]:自编码器——去噪自编码器

AI100 已经引入 Hugo Larochelle 教授的深度学习课程,会在公众号中推送,并且对视频中的 PPT 进行讲解。课后,我们会设计一系列的问题来巩...

34850
来自专栏AI科技大本营的专栏

哪个才是解决回归问题的最佳算法?线性回归、神经网络还是随机森林?

编译 | AI科技大本营 参与 | 王珂凝 编辑 | 明 明 【AI科技大本营导读】现在,不管想解决什么类型的机器学习(ML)问题,都会有各种不同的算法可以供你...

79470
来自专栏AI科技大本营的专栏

李开复:十年后中国AI市场将占据半壁江山,我已退掉3点钟区块链群

作者 | 明明 3月7日,长城会在北京举办了第十届“GMIC北京2018发布会暨AI主题沙龙”活动。据悉,今年的GMIC北京2018将于4月26-28日在北京...

34770
来自专栏AI科技大本营的专栏

人工智能是不可怕,但你也得会用啊!

随着人工智能与机器人技术的发展,几乎所有的行业都开始采用人工智能来取代人类劳动力。 如同圈地运动和农业机械化把劳动力赶出土地的过程一样,眼下这场人工智能革命也正...

34250
来自专栏AI科技大本营的专栏

AI一分钟 | 小米智能音箱mini版曝光,或售199元;特朗普被指利用AI竞选成功

整理 | 阿司匹林 一分钟AI 3月19日,小米社区有网友曝光了小爱同学mini版,它可能是3月27日小米MIX 2S发布会的“小惊喜”,售价可能为199元。...

417120
来自专栏AI科技大本营的专栏

日本推出基于 Pascal GPU 的 AI 超级计算机

在过去一年里,人们对高性能计算硬件和框架的共同兴趣促使超级计算和深度学习进入了同一领域。虽然大多数的研究都只局限于软件和应用方面,但一些超级计算机的研究中心已经...

37490

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励