Google搞出的AlphaGo，打开了机器学习的神秘之门

量子位

发布于 2018-03-21 06:37:32

6610

文章被收录于专栏：量子位量子位

两个机械臂，尝试打开两扇关闭的门。两个机器臂向前伸出，然后全都错过门把手。重来，再试一次，结果撞到把手上，门框铛铛作响。于是再试一次。再一次。几个小时的试验和犯错之后，两个机械臂都能干净利索的把门打开，次次如此。

这两个机械臂都待在Google内部的某处，虽然机械装置很早就能敏捷的拉开门，但这次有所不同：这两个机械臂自己学会了打开门。依靠一种称为“强化学习”的技术，它们训练自己执行一个特定的任务，一遍又一遍的训练，学会怎么做是可行的，怎么是不可行的。

去年相同的技术驱动着AlphaGo学会了古老的围棋，而且下得比人类更好。现在这个技术正把机器人推向一个全新的领域。

除了几个视频和两个事实性的博客文章，Google不愿更多谈论这项研究（这项研究由加州大学伯克利分校的Sergey Levine负责）。诚然这一项目还处于早期阶段，但它意味着一次深刻变革：机器可以自己学会做事情，而不是遵守人类工程师预先规划好的程序。

强化学习以及相关技术，被认为可以加速自主机器人的发展，此前这些方法已经在纯数字领域带来的巨大的进步。在这个过程中，机器人硬件也在迅速演变，例如网上那些波士顿动力呈现的震撼视频。讽刺的是，特朗普信誓旦旦要给美国带来更多的工作岗位，而研究人员们正在推动能够自主学习的机器人取代人类的工作岗位。

试错

强化学习并不是刚刚出现的技术。两年前，Google收购的人工智能公司DeepMind，开始利用这项技术开发一套AI系统。结果这套系统玩（比小霸王还久远的）雅达利主机游戏《打砖块》时，表现的水准远远超过人类。

这个游戏就是用一个不断弹跳的小球，消灭眼前的一堆砖块。AI甚至学会了一个更省事、更有效的打法，让小球砸开一个通道，绕到后面去消灭砖块。

后面的故事，就更为人所知了。DeepMind把相同的技术运用在围棋上面，一举战胜人类顶尖棋手，比此前的预期还早了十年。DeepMind创始人Demis Hassabis和他的团队，把3000万盘棋谱“喂给”一个神经网络，这个网络可以通过分析大量数据来自动学习。

一旦系统学会了如何下棋，它还可以通过一遍一遍的与自己对战，不断不断的提高棋力。

强化学习特别适用于游戏领域。这个技术由“奖励机制”驱动，这个机制能够追踪判断哪些动作可以带来奖励，哪些不能。在游戏中，奖励是显而易见的：更多的积分。但是这一技术被应用在现实世界时，如何设定奖励并不容易，有时候可能非常困难。

而对于Google的机器人来说，开门就是奖励。

新世界

当然，打开门只是奔向新世界的第一小步。更大的目标会变得非常复杂、非常迅速而且非常昂贵。这也是为什么许多研究人员在进入物理世界探索之前，现在数字世界模拟强化学习，他们希望尽量弥合游戏和真实机器人之间的差距。

OpenAI，一家由硅谷钢铁侠Elon Musk等投资10亿美元打造的人工智能实验室，前不久推出一个名为Universe的扫描软件平台。在这个虚拟平台上，AI们能够借助强化学习来掌握各种电脑应用程序，从游戏到浏览器。理论上，AI学到的技能也能应用在现实世界。

有人就在Universe上用赛车游戏训练AI，并准备应用在无人驾驶汽车上。

英国剑桥的一家创业公司Prowler.io，也在沿着同样的道路前进。这个小团队的研究人员，正在教AI在大型多人游戏的虚拟世界里开车。未来，他们计划把虚拟世界的工作成果，应用到现实世界之中，教会机器人和无人驾驶汽车。现在的无人驾驶汽车，大多是根据工程师编制的一大套规则作出决定，这与真正的自主决断相去甚远。

Prowler的创始人兼首席执行官Vishal Chatrath认为，强化学习和相关技术对于建设真正的自主车辆至关重要，未来汽车自身就可以做一切人类驾驶者能做的事情。顺便提一句，Chatrath把他以前的AI公司卖给了苹果公司。

在德国柏林，Micropsi已经将这些技术推广到物理系统中，就像Google一样。这家公司通过强化学习训练，来建立机器人模拟系统。他们让虚拟机器人手臂，学习平衡虚拟手指末端的虚拟杆。这套系统模拟重力和机器人的运动，奖励取决于杆落下与否。

现实

问题是，物理世界没那么简单。Micropsi声称可以通过模拟计算，解决所有的机器人问题，但模拟毕竟不是真实世界。在模拟世界里，你可以教一个机器人掌握平衡，但是让机器人学会把插头插入插座，最后还是得借助于真实的插头和真实的插座。

插电源是一个简单的问题，因为这个任务的奖励简单明了。但是当几个任务串在一起时，奖励系统就会变得非常复杂。卡内基梅隆大学的Abhinav Gupta，正在Google的资助下研究类似技术，他对强化学习在短期的效果有所质疑。

Gupta和他的团队正基于卷积神经网络进行探索，这是一种广泛用户图像识别的机器学习技术，所有这些技术都有赖于大量的数据基础。

至少在现阶段，Chatrath认为想要基于物理世界探索AI，最好是通过玩具：那些小而简单的机械产品们。他的想法是，如果系统学会使用简单的机器，就可以让他们学习掌握更复杂的机器。显然机器不会只有一种学习方式。门打开了，新征途开始了。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-02-01，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自量子位微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

Google搞出的AlphaGo，打开了机器学习的神秘之门

Google搞出的AlphaGo，打开了机器学习的神秘之门

试错

新世界

现实

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐