2017年十大技术突破之强化学习

作者|Will Knight

译者|严子怡

编辑|Emily

12 月,在巴塞罗那举行的今年最大的人工智能会议上,我目睹了这场模拟驾驶的全过程。最让我惊讶的是,控制这些车的软件根本不是用常规的方式编写的。它仅仅通过不断的练习,学会了如何顺利又安全地并道。在训练的过程中,控制软件不停地进行演习,每一次演习都会对操作步骤进行一些修改。在大多数的演习中,并道都进行得太过缓慢,并且经常干扰到其他车辆。但是,一旦并道的过程进行的非常顺利,这个系统就会学习并偏向导致该结果的行为。

这种被称为强化学习的方法,很大程度上就是 AlphaGo 习得复杂的棋类游戏——围棋,并在去年打败世界上最受人瞩目的比赛上最好的人类选手的秘诀。现在强化学习可能马上会在更多的游戏中展示它的智力。除了可以改进自动驾驶汽车,该技术还能够让机器人抓取它从来没有见过的物体,并且找出数据中心里设备的最优配置。

强化学习从大自然抄袭了一个非常简单的原则。心理学家 Edward Thorndike 早在 100 年前就对此做过记载。Thorndike 把猫放在一个盒子里,猫要是想从盒子里出来,它必须按下一个控制杆。在逡巡大叫一番后,动物们总是会不小心踩到控制杆。当了解到这个行为和想要的结果之间的关联之后,它们最终能够以更快的速度逃出盒子。

一些早期的人工智能研究者相信,这样的过程如果能够在机器上实现的话,将会非常有用。1951 年,哈佛大学的学生 Marvin Minsky(它最终作为 MIT 的教授,成为了人工智能的奠基者之一)创造了一个使用简单的强化学习来模拟老鼠学习走迷宫的机器。Minsky 的随机神经模拟强化计算机(Stochastic Neural Analogy Reinforcement Computer),也叫做 SNARC,由非常多的电子管、发动机和离合器组成。这些零部件模拟了 40 个神经元和突触的行为。该机器作为一个模拟的老鼠,在虚拟的迷宫里寻找出口的过程中,一些突触链接会被增强,从而强化其内在的行为。

接下来的几十年里,也有一些小的成果。在 1992 年,一位 IBM 的研究员 Gerald Tesauro 演示了一个使用该技术下十五子棋的程序。这是人工智能领域地标性成果。但是,强化学习被证明难以延展至更复杂的问题。英国 DeepMind 的研究员,同时也是今天强化学习的主要支持者 David Silver 说道:“人们认为这是一个很酷的主意,但它不能真正地起作用”。

然而,这样的观点在 2016 年的 3 月发生了翻天覆地的变化。在当时,一个使用强化学习训练的程序 AlphaGo 打败了至今最好的围棋选手之一——韩国的李世石。这个结果是非常惊人的,因为用常规的方式来编写一个下围棋的程序基本上是不可能的。这不仅是因为围棋非常的复杂,即使是非常有成就的围棋选手也很难说出为什么某一步是好是坏,所以下围棋的原则很难写成代码。大多数人工智能研究员都认为,要想学会围棋,计算机需要像人一样花上十年的时间来练习。抢占车位David Silver 是一个温和的英国人,它早在剑桥大学本科期间就迷上了人工智能。他向我们解释为什么强化学习最近变得如此强大。他说其中的关键因素是把它和深度学习结合起来。深度学习是一种使用巨大的模拟神经网络来识别数据中模式的技术(参见“2017 年十大突破性技术:深度学习”)。

强化学习能够起作用是因为研究员找到了让机器计算应该被赋予给每一次尝试的那个数值的方法,就是老鼠在迷宫里找出口时的每一次正确或者错误的尝试。每一个数值存储在一个巨大的表中,并且计算机会在学习的过程中更新所有这些值。对于大型复杂的任务,完成这个计算过程是不切实际的。然而,近几年,深度学习被证明在识别数据中的模式时有非常高的效率,不管数据是每走的一轮迷宫游戏,围棋棋盘上的位置或者计算机游戏在屏幕上显示的像素。

事实上,DeepMind 是因游戏而成名。2013 年,DeepMind 发布了一款程序的细节,该程序能够以超过人类的水准玩各种 Atari 视频游戏。这一程序吸引了 Google 以超过 5 亿美金的价格于 2014 年收购了这家公司,并激发了很多其他的研究员和公司开始研究强化学习。好几家工业级机器人制造商正在测试一种不需要人工编程就能训练机器完成新任务的方法。同时,Google 的 Alphabet 公司,与 DeepMind 联合起来使用深度强化学习让它们的数据中心更加节能。我们很难弄清楚数据中心的每一个元件是如何影响其能源使用的,但是强化学习的算法可以从一系列数据中学习并在模拟环境中试验,最终给出建议,例如,何时用何种方式操作降温系统。

图片来自 Mobileye 使用了强化学习的车辆视觉系统

但是,你可能会注意到这个软件最类似人类的行为是在自动驾驶汽车中。现在的无人驾驶设备经常在涉及到与人类驾驶员互动的复杂的场景中犹豫不决,例如转盘和四向停车。如果我们不想让它们冒不必要的风险,或者因为过于犹豫而堵在路中间,这些车需要习得更细微的驾驶技巧,比如在一群车辆中抢占车位。

在巴塞罗那,Mobileye 展示了其高速公路并道程序。Mobileye 是一家以色列自动驾驶公司,它们构建的车辆安全系统被很多汽车制造商采用,包括 Tesla 汽车(参见“2016 年 50 个最智能化的公司”。在播放完车辆并道视频之后,Mobileye 的技术副总裁 Shai Shalev-Shwartz 为我们描述了自动驾驶汽车会面临的一些挑战:在耶路撒冷的拥挤的转角;在巴黎穿流如梭的路口;在印度地狱一般混乱的大街上。Shalev-Shwartz 说道:“如果一个自动驾驶汽车准确地按照法律行驶,那么在交通高峰期,可能并道就得等一个小时。”

Mobileye 与宝马、Intel 计划今年年末合作在车辆上测试该软件。Google 和 Uber 也均表示其正在自动驾驶汽车上测试增强学习技术。

thumbnail 强化学习帮助 AlphaGo 在对阵人类围棋冠军时获胜

强化学习正在被应用于越来越多的领域,专注于强化学习方法的斯坦福大学副教授 Emma Brunskill 如是说。她说该方法非常适合自动驾驶汽车,因为它使“一连串好的决策”成为可能。如果程序员必须把所有的决策提前编码到车辆上,自动驾驶的发展将会非常缓慢。

但是,还有其他的挑战需要克服。百度公司的首席科学家 Andrew Ng 告诫我们,这种方法需要大量的数据,并且该方法的很多成果案例都基于计算机可以持续地在模拟环境中进行训练。确实,研究员们还在寻找让强化学习在拥有多个物体的复杂场景中起作用的方法。Mobileye 也需要调整协议,让能够熟练躲避事故的自动驾驶汽车不会导致交通事故。

至少目前来说,当你看到那个稀奇古怪的并道演示,似乎证明了这家公司已经取得了成功。今年年末,也许就在你平常会路过的高速公路上,应用了强化学习的自动驾驶车辆将会迎来迄今为止最具有戏剧性,也最为重要的一场测试。

查看英文原文:

https://www.technologyreview.com/s/603501/10-breakthrough-technologies-2017-reinforcement-learning/

本文来自企鹅号 - AI漫游媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

学界|IBM识别癌变细胞技术取得重大突破,用深度学习与神经网络重塑病理学

IBM 最近在医学领域成果喜人,动作不断。继成功用照片诊断皮肤癌后,IBM 研究院日前发布最新成果称,他们采用了深度学习和神经网络,在识别癌变细胞的有丝分裂上取...

3476
来自专栏新智元

斯坦福医疗ImageNet发布,如何评价PB级医疗影像数据集?

【新智元导读】斯坦福大学医学院与 Langlotzlab 合作创建的一个 PB 级的大型医疗影像数据集 Medical ImageNet 最近发布,从官方网页的...

4447
来自专栏腾讯技术工程官方号的专栏

拯救乳房:乳腺癌AI诊断系统

1211
来自专栏Vamei实验室

统计Go, Go, Go

结束了概率论,我们数据之旅的下一站是统计。这一篇,是统计的一个小介绍。 统计是研究数据的学科。它包括描述数据,推测群体信息,判断假设的真伪。统计是一门实用学科。...

1759
来自专栏罗超频道

忘了黄金时代,理性看待大数据预测

在世界杯预测时准确率超高的百度大数据预测在稳步推进时遇到了一个小障碍,尚处于内测的票房预测对《黄金时代》的预测与实际结果出现了偏差,被媒体长篇报道引发业内高度...

3514
来自专栏CreateAMind

【图文实录】北大AI公开课 | 吴甘沙:智能驾驶,有多少AI可以重来

3月14日,北大AI公开课第四讲邀请到了驭势科技联合创始人&CEO、原英特尔中国研究院院长、英特尔首席工程师吴甘沙老师亲临现场,与北大人工智能创新中心主任、百度...

983
来自专栏量子位

李飞飞得意门生Andrej Karpathy出任特斯拉AI主管

陈桦 编译整理 量子位 报道 | 公众号 QbitAI 今天,特斯拉新任命了一位人工智能主管:计算机视觉专家、李飞飞的得意门生Andrej Karpathy。 ...

2995
来自专栏人工智能头条

【CSDN AI 周刊】第11期 | 周志华提出深度森林 引发持续热议

1533
来自专栏AI科技大本营的专栏

这个Kaggle三项排行榜的“顶级大师”,今年17岁

Kaggle,这是个坐拥 100 万会员的数据建模和数据分析竞赛平台,目前已被 Google 收购。企业和研究者可在这个平台上发布数据,而统计学者和数据挖掘专家...

1524
来自专栏AI研习社

最好奇的Top5连问:你是怎么踏入深度学习大门的?

今天是一年一度的11.11 突然觉得抢不到最心水的便宜货了 还有发现自己的solo魔咒也打不破了 放弃治疗,保持围笑 也许还是有up自己英文段位 和技术大拿一起...

3465

扫码关注云+社区

领取腾讯云代金券