今天 MIT Technology Review 将强化学习(Reinforcement Learning)列入 2017 年十大突破技术,并阐明其已经能够在 1 到 2 年内发挥出可触及的作用。
话说强化学习领域也是一个历史相当久远的领域,这里我们引用之前 Neil 写过的一篇文章《深度强化学习导引》:
强化学习,现在常常将其看作机器学习领域的一个分支,但如果细细去看,你会发现,强化学习本身也有完整的一条发展的脉络。从动物行为研究和优化控制两个领域独立发展最终经 Bellman 之手汇集抽象为 MDP 问题而完成形式化。之后经很多的科学家的不断扩大,形成了相对完备的体系——常被称为近似动态规划,参看 MIT 教授 Dimitri P. Bertsekas 的 动态规划系列,Dynamic Programming and Optimal Control, Vol. II, 4th Edition: Approximate Dynamic Programming。
上图大致给出了强化学习的相关技术。
在 MIT Technology Review 的介绍文章中,提到了强化学习是从大自然规律中汲取的启发。100 年前 Edward Thorndike 就有记载。当时是拿猫进行实验的(这个可怜的家伙并不是我们熟知的薛定谔的猫)。后来就是系统化的动物行为学研究。这些可以算是强化学习的前身吧。
后来有大家熟知的 Marvin Minsky 尝试强化学习的简单形式来模仿老鼠穿越迷宫的行为。他构建的称为随机神经仿真强化机器 Stochastic Neural Analog Reinforcement Computer ,这个 SNARC 长成这样:
这个长相神奇的东东模拟了 40 个神经元及轴突的行为。这就是一只胖胖的模拟的老鼠啊!!!天哪噜~
言归正传。
强化学习是 AlphaGo 成功的关键之一,结合深度学习的力量,将原先的业界普遍认同的围棋瓶颈状态突破。
从 Atari game player 到 AlphaGo 又到 Starcraft,大家看到一个有一个成功地将深度学习和强化学习结合的令人兴奋的故事。
虽说目前我们可以看到的是在游戏控制、围棋、德州扑克等上深度强化学习的成功,但其实深度强化学习应用还有更多的领域。比如自动驾驶、电力控制、污水处理、机器人手臂控制、推荐系统、博弈求解甚至自然语言对话系统等等。
在深度强化学习中,一个避不开的机构就是强大的 DeepMind,他们是该领域最完整的玩家。
本文配图来自 MIT Technology Review 文章配图。