强化学习Reinforcement Learning被MIT Technology Review列入 2017 年十大技术

今天 MIT Technology Review 将强化学习(Reinforcement Learning)列入 2017 年十大突破技术,并阐明其已经能够在 1 到 2 年内发挥出可触及的作用。

话说强化学习领域也是一个历史相当久远的领域,这里我们引用之前 Neil 写过的一篇文章《深度强化学习导引》:

强化学习,现在常常将其看作机器学习领域的一个分支,但如果细细去看,你会发现,强化学习本身也有完整的一条发展的脉络。从动物行为研究和优化控制两个领域独立发展最终经 Bellman 之手汇集抽象为 MDP 问题而完成形式化。之后经很多的科学家的不断扩大,形成了相对完备的体系——常被称为近似动态规划,参看 MIT 教授 Dimitri P. Bertsekas 的 动态规划系列,Dynamic Programming and Optimal Control, Vol. II, 4th Edition: Approximate Dynamic Programming。

上图大致给出了强化学习的相关技术。

在 MIT Technology Review 的介绍文章中,提到了强化学习是从大自然规律中汲取的启发。100 年前 Edward Thorndike 就有记载。当时是拿猫进行实验的(这个可怜的家伙并不是我们熟知的薛定谔的猫)。后来就是系统化的动物行为学研究。这些可以算是强化学习的前身吧。

后来有大家熟知的 Marvin Minsky 尝试强化学习的简单形式来模仿老鼠穿越迷宫的行为。他构建的称为随机神经仿真强化机器 Stochastic Neural Analog Reinforcement Computer ,这个 SNARC 长成这样:

这个长相神奇的东东模拟了 40 个神经元及轴突的行为。这就是一只胖胖的模拟的老鼠啊!!!天哪噜~

言归正传。

强化学习是 AlphaGo 成功的关键之一,结合深度学习的力量,将原先的业界普遍认同的围棋瓶颈状态突破。

从 Atari game player 到 AlphaGo 又到 Starcraft,大家看到一个有一个成功地将深度学习和强化学习结合的令人兴奋的故事。

虽说目前我们可以看到的是在游戏控制、围棋、德州扑克等上深度强化学习的成功,但其实深度强化学习应用还有更多的领域。比如自动驾驶、电力控制、污水处理、机器人手臂控制、推荐系统、博弈求解甚至自然语言对话系统等等。

在深度强化学习中,一个避不开的机构就是强大的 DeepMind,他们是该领域最完整的玩家。

本文配图来自 MIT Technology Review 文章配图。

原文发布于微信公众号 - UAI人工智能(UniversityAI)

原文发表时间:2017-05-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Pytorch实践

AI与深度学习-2017年总结

2017年AI界出现了很多进展,虽说没有像之前CNN、RNN、GAN出现时的转折,但也有很大的突破,特别是当Alpha Zero出现,强化学习的地位一下子飞升。...

42310
来自专栏语言、知识与人工智能

IJCAI 2018 | 腾讯知文团队3篇入选论文解读

在近日揭晓2018年收录论文名单中,腾讯知文团队有3篇一作长文被录取,我们将对文章进行简要解读,欢迎交流讨论。

8.5K4
来自专栏机器之心

学界 | 如何设计奖励函数

选自 nlpers.blogspot 机器之心编译 参与:Jane W、黄小天 作者Hal Daumé III是美国马里兰大学计算机科学院CLIP lab副教授...

26111
来自专栏人工智能头条

最强大脑第二场战平听音神童!百度大脑小度声纹识别技术算法解析

1676
来自专栏AI科技评论

苹果首份AI论文横空出世,提出SimGAN训练方法

当AI浪潮袭来,谷歌、Facebook、微软等几个山头恨不得把自己都浸没在潮水里,可劲打滚儿的时候,苹果这座孤岛却始终有一种不愿被沾湿的姿态。 12月初,在洒满...

35311
来自专栏机器之心

学界 | 学术盛宴:微软亚洲研究院CVPR 2017论文分享会全情回顾

机器之心原创 作者:Smith 今年 7 月,世界顶级计算机视觉会议 CVPR(计算机视觉与模式识别会议)将在美国夏威夷举行。在此之前,「微软亚洲研究院创研论坛...

4566
来自专栏WOLFRAM

Wolfram语言人工智能:图像识别项目(二)

1454
来自专栏大数据文摘

Facebook人工智能实验室负责人讲深度学习

1826
来自专栏AI科技评论

CNCC | 丘成桐演讲全文:工程上取得很大发展,但理论基础仍非常薄弱,人工智能需要一个可被证明的理论作为基础

AI科技评论消息,2017年10月26日上午,中国计算机学会(CCF)主办的第十四届中国计算机大会(CNCC 2017)正式在福州海峡国际会展中心开幕,雷锋网作...

3498
来自专栏新智元

ArXiv最受欢迎开源深度学习框架榜单:TensorFlow第一,PyTorch第四

来源:Twitter等 作者:文强 【新智元导读】Kears作者François Chollet刚刚在Twitter贴出最近三个月在arXiv提到的深度学习框架...

4109

扫码关注云+社区