首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

2017年十大技术突破之强化学习

作者|Will Knight

译者|严子怡

编辑|Emily

12 月,在巴塞罗那举行的今年最大的人工智能会议上,我目睹了这场模拟驾驶的全过程。最让我惊讶的是,控制这些车的软件根本不是用常规的方式编写的。它仅仅通过不断的练习,学会了如何顺利又安全地并道。在训练的过程中,控制软件不停地进行演习,每一次演习都会对操作步骤进行一些修改。在大多数的演习中,并道都进行得太过缓慢,并且经常干扰到其他车辆。但是,一旦并道的过程进行的非常顺利,这个系统就会学习并偏向导致该结果的行为。

这种被称为强化学习的方法,很大程度上就是 AlphaGo 习得复杂的棋类游戏——围棋,并在去年打败世界上最受人瞩目的比赛上最好的人类选手的秘诀。现在强化学习可能马上会在更多的游戏中展示它的智力。除了可以改进自动驾驶汽车,该技术还能够让机器人抓取它从来没有见过的物体,并且找出数据中心里设备的最优配置。

强化学习从大自然抄袭了一个非常简单的原则。心理学家 Edward Thorndike 早在 100 年前就对此做过记载。Thorndike 把猫放在一个盒子里,猫要是想从盒子里出来,它必须按下一个控制杆。在逡巡大叫一番后,动物们总是会不小心踩到控制杆。当了解到这个行为和想要的结果之间的关联之后,它们最终能够以更快的速度逃出盒子。

一些早期的人工智能研究者相信,这样的过程如果能够在机器上实现的话,将会非常有用。1951 年,哈佛大学的学生 Marvin Minsky(它最终作为 MIT 的教授,成为了人工智能的奠基者之一)创造了一个使用简单的强化学习来模拟老鼠学习走迷宫的机器。Minsky 的随机神经模拟强化计算机(Stochastic Neural Analogy Reinforcement Computer),也叫做 SNARC,由非常多的电子管、发动机和离合器组成。这些零部件模拟了 40 个神经元和突触的行为。该机器作为一个模拟的老鼠,在虚拟的迷宫里寻找出口的过程中,一些突触链接会被增强,从而强化其内在的行为。

接下来的几十年里,也有一些小的成果。在 1992 年,一位 IBM 的研究员 Gerald Tesauro 演示了一个使用该技术下十五子棋的程序。这是人工智能领域地标性成果。但是,强化学习被证明难以延展至更复杂的问题。英国 DeepMind 的研究员,同时也是今天强化学习的主要支持者 David Silver 说道:“人们认为这是一个很酷的主意,但它不能真正地起作用”。

然而,这样的观点在 2016 年的 3 月发生了翻天覆地的变化。在当时,一个使用强化学习训练的程序 AlphaGo 打败了至今最好的围棋选手之一——韩国的李世石。这个结果是非常惊人的,因为用常规的方式来编写一个下围棋的程序基本上是不可能的。这不仅是因为围棋非常的复杂,即使是非常有成就的围棋选手也很难说出为什么某一步是好是坏,所以下围棋的原则很难写成代码。大多数人工智能研究员都认为,要想学会围棋,计算机需要像人一样花上十年的时间来练习。抢占车位David Silver 是一个温和的英国人,它早在剑桥大学本科期间就迷上了人工智能。他向我们解释为什么强化学习最近变得如此强大。他说其中的关键因素是把它和深度学习结合起来。深度学习是一种使用巨大的模拟神经网络来识别数据中模式的技术(参见“2017 年十大突破性技术:深度学习”)。

强化学习能够起作用是因为研究员找到了让机器计算应该被赋予给每一次尝试的那个数值的方法,就是老鼠在迷宫里找出口时的每一次正确或者错误的尝试。每一个数值存储在一个巨大的表中,并且计算机会在学习的过程中更新所有这些值。对于大型复杂的任务,完成这个计算过程是不切实际的。然而,近几年,深度学习被证明在识别数据中的模式时有非常高的效率,不管数据是每走的一轮迷宫游戏,围棋棋盘上的位置或者计算机游戏在屏幕上显示的像素。

事实上,DeepMind 是因游戏而成名。2013 年,DeepMind 发布了一款程序的细节,该程序能够以超过人类的水准玩各种 Atari 视频游戏。这一程序吸引了 Google 以超过 5 亿美金的价格于 2014 年收购了这家公司,并激发了很多其他的研究员和公司开始研究强化学习。好几家工业级机器人制造商正在测试一种不需要人工编程就能训练机器完成新任务的方法。同时,Google 的 Alphabet 公司,与 DeepMind 联合起来使用深度强化学习让它们的数据中心更加节能。我们很难弄清楚数据中心的每一个元件是如何影响其能源使用的,但是强化学习的算法可以从一系列数据中学习并在模拟环境中试验,最终给出建议,例如,何时用何种方式操作降温系统。

图片来自 Mobileye 使用了强化学习的车辆视觉系统

但是,你可能会注意到这个软件最类似人类的行为是在自动驾驶汽车中。现在的无人驾驶设备经常在涉及到与人类驾驶员互动的复杂的场景中犹豫不决,例如转盘和四向停车。如果我们不想让它们冒不必要的风险,或者因为过于犹豫而堵在路中间,这些车需要习得更细微的驾驶技巧,比如在一群车辆中抢占车位。

在巴塞罗那,Mobileye 展示了其高速公路并道程序。Mobileye 是一家以色列自动驾驶公司,它们构建的车辆安全系统被很多汽车制造商采用,包括 Tesla 汽车(参见“2016 年 50 个最智能化的公司”。在播放完车辆并道视频之后,Mobileye 的技术副总裁 Shai Shalev-Shwartz 为我们描述了自动驾驶汽车会面临的一些挑战:在耶路撒冷的拥挤的转角;在巴黎穿流如梭的路口;在印度地狱一般混乱的大街上。Shalev-Shwartz 说道:“如果一个自动驾驶汽车准确地按照法律行驶,那么在交通高峰期,可能并道就得等一个小时。”

Mobileye 与宝马、Intel 计划今年年末合作在车辆上测试该软件。Google 和 Uber 也均表示其正在自动驾驶汽车上测试增强学习技术。

thumbnail 强化学习帮助 AlphaGo 在对阵人类围棋冠军时获胜

强化学习正在被应用于越来越多的领域,专注于强化学习方法的斯坦福大学副教授 Emma Brunskill 如是说。她说该方法非常适合自动驾驶汽车,因为它使“一连串好的决策”成为可能。如果程序员必须把所有的决策提前编码到车辆上,自动驾驶的发展将会非常缓慢。

但是,还有其他的挑战需要克服。百度公司的首席科学家 Andrew Ng 告诫我们,这种方法需要大量的数据,并且该方法的很多成果案例都基于计算机可以持续地在模拟环境中进行训练。确实,研究员们还在寻找让强化学习在拥有多个物体的复杂场景中起作用的方法。Mobileye 也需要调整协议,让能够熟练躲避事故的自动驾驶汽车不会导致交通事故。

至少目前来说,当你看到那个稀奇古怪的并道演示,似乎证明了这家公司已经取得了成功。今年年末,也许就在你平常会路过的高速公路上,应用了强化学习的自动驾驶车辆将会迎来迄今为止最具有戏剧性,也最为重要的一场测试。

查看英文原文:

https://www.technologyreview.com/s/603501/10-breakthrough-technologies-2017-reinforcement-learning/

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171230G0J5HU00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券