强化学习Reinforcement Learning被MIT Technology Review列入 2017 年十大技术

今天 MIT Technology Review 将强化学习(Reinforcement Learning)列入 2017 年十大突破技术,并阐明其已经能够在 1 到 2 年内发挥出可触及的作用。

话说强化学习领域也是一个历史相当久远的领域,这里我们引用之前 Neil 写过的一篇文章《深度强化学习导引》:

强化学习,现在常常将其看作机器学习领域的一个分支,但如果细细去看,你会发现,强化学习本身也有完整的一条发展的脉络。从动物行为研究和优化控制两个领域独立发展最终经 Bellman 之手汇集抽象为 MDP 问题而完成形式化。之后经很多的科学家的不断扩大,形成了相对完备的体系——常被称为近似动态规划,参看 MIT 教授 Dimitri P. Bertsekas 的 动态规划系列,Dynamic Programming and Optimal Control, Vol. II, 4th Edition: Approximate Dynamic Programming。

上图大致给出了强化学习的相关技术。

在 MIT Technology Review 的介绍文章中,提到了强化学习是从大自然规律中汲取的启发。100 年前 Edward Thorndike 就有记载。当时是拿猫进行实验的(这个可怜的家伙并不是我们熟知的薛定谔的猫)。后来就是系统化的动物行为学研究。这些可以算是强化学习的前身吧。

后来有大家熟知的 Marvin Minsky 尝试强化学习的简单形式来模仿老鼠穿越迷宫的行为。他构建的称为随机神经仿真强化机器 Stochastic Neural Analog Reinforcement Computer ,这个 SNARC 长成这样:

这个长相神奇的东东模拟了 40 个神经元及轴突的行为。这就是一只胖胖的模拟的老鼠啊!!!天哪噜~

言归正传。

强化学习是 AlphaGo 成功的关键之一,结合深度学习的力量,将原先的业界普遍认同的围棋瓶颈状态突破。

从 Atari game player 到 AlphaGo 又到 Starcraft,大家看到一个有一个成功地将深度学习和强化学习结合的令人兴奋的故事。

虽说目前我们可以看到的是在游戏控制、围棋、德州扑克等上深度强化学习的成功,但其实深度强化学习应用还有更多的领域。比如自动驾驶、电力控制、污水处理、机器人手臂控制、推荐系统、博弈求解甚至自然语言对话系统等等。

在深度强化学习中,一个避不开的机构就是强大的 DeepMind,他们是该领域最完整的玩家。

本文配图来自 MIT Technology Review 文章配图。

原文发布于微信公众号 - UAI人工智能(UniversityAI)

原文发表时间:2017-05-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏计算机视觉战队

2018年最全干货总结

之前很多读者反映新人和旧人得分的明细一些,那今天先总结一下本平台自创办以来一些经典的干货和实验等,希望对大家有所了解~

1433
来自专栏用户2442861的专栏

如何学会傅里叶变换?

作者:张苏 链接:https://www.zhihu.com/question/22202980/answer/20973635 来源:知乎 著作权归作者...

3751
来自专栏量子位

CMU科学家们带一群机器人开房,并收集了28,000种不同的姿势

来自卡耐基梅隆大学 (CMU) 的四个科学家,在一篇论文里说,他们带着一群机器人去住Airbnb了。

760
来自专栏新智元

【Goldberg回应LeCun】DL社群缺乏学习,夸大研究成果

【新智元导读】Yann LeCun 对于 Yoav Goldberg 的驳斥得到了 Goldberg 第一时间的回应。他表示自己并不反对在语言任务上使用深度学习...

36012
来自专栏量子位

卸载美图秀秀吧,谷歌和MIT用机器学习帮你在拍照前修图

安妮 编译自 The Verge 量子位出品 | 公众号 QbitAI 你去票圈发照片的时候肯定也先修修图。少则几秒加个滤镜,多则数十分钟精修一下美美颜。 以后...

3386
来自专栏AI科技评论

观点 | 玩转「马里奥」的算法能搞定「口袋妖怪」吗?

AI 科技评论:现在机器人玩游戏的水平甚至已经超过了人类,然而对于不同的游戏,一个算法是否全部搞定呢?软件开发者 Shayaan Jagtap 就以「马里奥」这...

822
来自专栏PPV课数据科学社区

基于贝叶斯生存分析的《冰与火之歌》人物死亡率分析

? 《冰与火之歌》书迷遍布全球。该小说凭借其丰富的人物设置受到广大书迷青睐。然而,在马丁( Martin )笔下,无论好人、坏人,主角、配角都难逃命运的捉弄。...

3367
来自专栏机器人网

中科院发布寒武纪深度神经网络处理器是什么?

第三届世界互联网大会于2016年11月16日在浙江乌镇召开,并举办了领先科技成果发布会。其中中国最引人注目的就是中国科学院计算技术研究所发布了寒武纪深度神经网络...

29210
来自专栏企鹅号快讯

深度学习真的不需要理论指导了?图灵奖得主讲座无人问津,贝叶斯之父Judea Pearl落寞身影背后引人深思

【导读】最近NIPS 2017 "Test of Time"论文大奖获得者Ali Rahimi 在长滩现场的演讲中把机器学习称为“炼金术”(Alchemy)引起...

2119
来自专栏机器之心

业界 | 谷歌「虚拟摄影师」:利用深度学习生成专业级摄影作品

选自Google Research 机器之心编译 参与:Smith 黄小天 机器学习在目标清晰的客观领域取得了超乎想象的效果,比如图像识别和机器翻译;但在主观领...

2979

扫码关注云+社区