前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >强化学习Reinforcement Learning被MIT Technology Review列入 2017 年十大技术

强化学习Reinforcement Learning被MIT Technology Review列入 2017 年十大技术

作者头像
用户1107453
发布2018-06-21 16:21:13
5770
发布2018-06-21 16:21:13
举报
文章被收录于专栏:UAI人工智能

今天 MIT Technology Review 将强化学习(Reinforcement Learning)列入 2017 年十大突破技术,并阐明其已经能够在 1 到 2 年内发挥出可触及的作用。

话说强化学习领域也是一个历史相当久远的领域,这里我们引用之前 Neil 写过的一篇文章《深度强化学习导引》:

强化学习,现在常常将其看作机器学习领域的一个分支,但如果细细去看,你会发现,强化学习本身也有完整的一条发展的脉络。从动物行为研究和优化控制两个领域独立发展最终经 Bellman 之手汇集抽象为 MDP 问题而完成形式化。之后经很多的科学家的不断扩大,形成了相对完备的体系——常被称为近似动态规划,参看 MIT 教授 Dimitri P. Bertsekas 的 动态规划系列,Dynamic Programming and Optimal Control, Vol. II, 4th Edition: Approximate Dynamic Programming。

上图大致给出了强化学习的相关技术。

在 MIT Technology Review 的介绍文章中,提到了强化学习是从大自然规律中汲取的启发。100 年前 Edward Thorndike 就有记载。当时是拿猫进行实验的(这个可怜的家伙并不是我们熟知的薛定谔的猫)。后来就是系统化的动物行为学研究。这些可以算是强化学习的前身吧。

后来有大家熟知的 Marvin Minsky 尝试强化学习的简单形式来模仿老鼠穿越迷宫的行为。他构建的称为随机神经仿真强化机器 Stochastic Neural Analog Reinforcement Computer ,这个 SNARC 长成这样:

这个长相神奇的东东模拟了 40 个神经元及轴突的行为。这就是一只胖胖的模拟的老鼠啊!!!天哪噜~

言归正传。

强化学习是 AlphaGo 成功的关键之一,结合深度学习的力量,将原先的业界普遍认同的围棋瓶颈状态突破。

从 Atari game player 到 AlphaGo 又到 Starcraft,大家看到一个有一个成功地将深度学习和强化学习结合的令人兴奋的故事。

虽说目前我们可以看到的是在游戏控制、围棋、德州扑克等上深度强化学习的成功,但其实深度强化学习应用还有更多的领域。比如自动驾驶、电力控制、污水处理、机器人手臂控制、推荐系统、博弈求解甚至自然语言对话系统等等。

在深度强化学习中,一个避不开的机构就是强大的 DeepMind,他们是该领域最完整的玩家。

本文配图来自 MIT Technology Review 文章配图。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-05-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 UAI人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯智能对话平台
腾讯智能对话平台(Tencent Bot Platform,TBP)专注于“对话即服务”的愿景,全面开放腾讯对话系统核心技术,为大型企业客户、开发者和生态合作伙伴提供开发平台和机器人中间件能力,实现便捷、低成本构建人机对话体验和高效、多样化赋能行业。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档