Google搞出的AlphaGo,打开了机器学习的神秘之门

两个机械臂,尝试打开两扇关闭的门。两个机器臂向前伸出,然后全都错过门把手。重来,再试一次,结果撞到把手上,门框铛铛作响。于是再试一次。再一次。几个小时的试验和犯错之后,两个机械臂都能干净利索的把门打开,次次如此。

这两个机械臂都待在Google内部的某处,虽然机械装置很早就能敏捷的拉开门,但这次有所不同:这两个机械臂自己学会了打开门。依靠一种称为“强化学习”的技术,它们训练自己执行一个特定的任务,一遍又一遍的训练,学会怎么做是可行的,怎么是不可行的。

去年相同的技术驱动着AlphaGo学会了古老的围棋,而且下得比人类更好。现在这个技术正把机器人推向一个全新的领域。

除了几个视频和两个事实性的博客文章,Google不愿更多谈论这项研究(这项研究由加州大学伯克利分校的Sergey Levine负责)。诚然这一项目还处于早期阶段,但它意味着一次深刻变革:机器可以自己学会做事情,而不是遵守人类工程师预先规划好的程序。

强化学习以及相关技术,被认为可以加速自主机器人的发展,此前这些方法已经在纯数字领域带来的巨大的进步。在这个过程中,机器人硬件也在迅速演变,例如网上那些波士顿动力呈现的震撼视频。讽刺的是,特朗普信誓旦旦要给美国带来更多的工作岗位,而研究人员们正在推动能够自主学习的机器人取代人类的工作岗位。

试错

强化学习并不是刚刚出现的技术。两年前,Google收购的人工智能公司DeepMind,开始利用这项技术开发一套AI系统。结果这套系统玩(比小霸王还久远的)雅达利主机游戏《打砖块》时,表现的水准远远超过人类。

这个游戏就是用一个不断弹跳的小球,消灭眼前的一堆砖块。AI甚至学会了一个更省事、更有效的打法,让小球砸开一个通道,绕到后面去消灭砖块。

后面的故事,就更为人所知了。DeepMind把相同的技术运用在围棋上面,一举战胜人类顶尖棋手,比此前的预期还早了十年。DeepMind创始人Demis Hassabis和他的团队,把3000万盘棋谱“喂给”一个神经网络,这个网络可以通过分析大量数据来自动学习。

一旦系统学会了如何下棋,它还可以通过一遍一遍的与自己对战,不断不断的提高棋力。

强化学习特别适用于游戏领域。这个技术由“奖励机制”驱动,这个机制能够追踪判断哪些动作可以带来奖励,哪些不能。在游戏中,奖励是显而易见的:更多的积分。但是这一技术被应用在现实世界时,如何设定奖励并不容易,有时候可能非常困难。

而对于Google的机器人来说,开门就是奖励。

新世界

当然,打开门只是奔向新世界的第一小步。更大的目标会变得非常复杂、非常迅速而且非常昂贵。这也是为什么许多研究人员在进入物理世界探索之前,现在数字世界模拟强化学习,他们希望尽量弥合游戏和真实机器人之间的差距。

OpenAI,一家由硅谷钢铁侠Elon Musk等投资10亿美元打造的人工智能实验室,前不久推出一个名为Universe的扫描软件平台。在这个虚拟平台上,AI们能够借助强化学习来掌握各种电脑应用程序,从游戏到浏览器。理论上,AI学到的技能也能应用在现实世界。

有人就在Universe上用赛车游戏训练AI,并准备应用在无人驾驶汽车上。

英国剑桥的一家创业公司Prowler.io,也在沿着同样的道路前进。这个小团队的研究人员,正在教AI在大型多人游戏的虚拟世界里开车。未来,他们计划把虚拟世界的工作成果,应用到现实世界之中,教会机器人和无人驾驶汽车。现在的无人驾驶汽车,大多是根据工程师编制的一大套规则作出决定,这与真正的自主决断相去甚远。

Prowler的创始人兼首席执行官Vishal Chatrath认为,强化学习和相关技术对于建设真正的自主车辆至关重要,未来汽车自身就可以做一切人类驾驶者能做的事情。顺便提一句,Chatrath把他以前的AI公司卖给了苹果公司。

在德国柏林,Micropsi已经将这些技术推广到物理系统中,就像Google一样。这家公司通过强化学习训练,来建立机器人模拟系统。他们让虚拟机器人手臂,学习平衡虚拟手指末端的虚拟杆。这套系统模拟重力和机器人的运动,奖励取决于杆落下与否。

现实

问题是,物理世界没那么简单。Micropsi声称可以通过模拟计算,解决所有的机器人问题,但模拟毕竟不是真实世界。在模拟世界里,你可以教一个机器人掌握平衡,但是让机器人学会把插头插入插座,最后还是得借助于真实的插头和真实的插座。

插电源是一个简单的问题,因为这个任务的奖励简单明了。但是当几个任务串在一起时,奖励系统就会变得非常复杂。卡内基梅隆大学的Abhinav Gupta,正在Google的资助下研究类似技术,他对强化学习在短期的效果有所质疑。

Gupta和他的团队正基于卷积神经网络进行探索,这是一种广泛用户图像识别的机器学习技术,所有这些技术都有赖于大量的数据基础。

至少在现阶段,Chatrath认为想要基于物理世界探索AI,最好是通过玩具:那些小而简单的机械产品们。他的想法是,如果系统学会使用简单的机器,就可以让他们学习掌握更复杂的机器。显然机器不会只有一种学习方式。门打开了,新征途开始了。

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2017-02-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

回归算法在数据比赛使用场景

本文整理了14个天池、DataCastle、CCF竞赛中可使用回归算法处理的问题场景。 1 生活大实惠:O2O优惠券使用预测 随着移动设备的完善和普及,移动互联...

40260
来自专栏码神联盟

【原创】人类进入人工智能时代,迎来大爆发?

今年高考是中国恢复高考40周年,刚结束不久,两位很特殊的考生也走进来了考场,是中国历史上,第一次正式参加高考的人工智能,北京的“考生”是学霸君推出的智能教育机...

45190
来自专栏Java学习123

更快学会任何东西的终极指南

37170
来自专栏镁客网

计算机视觉下一个技术拐点?前端成像或将开启“视觉2.0时代”

20570
来自专栏互联网杂技

达利欧:一切解读都不及自己用16页ppt彻底讲清《原则》

近日,全球最大对冲基金桥水基金创始人瑞·达利欧携作品《原则》来到中国,首次发表了题为“我的生活和工作原则”的演讲,用16张PPT彻底讲清楚《原则》,场景实验室创...

11830
来自专栏机器人网

恐惧与夸张?来源于那些不在AI领域工作的人?

在大部分人眼里,人工智能(AI)非常神秘,其实一点都不然。也许你每天都遇到它,尽管你并不知道。你的行动帮助它成长,然而你很少再去想它。人工智能就在你的口袋里,在...

34860
来自专栏镁客网

当AR落地B端行业应用,它的无限可能在哪?

16570
来自专栏大数据文摘

Topsy如何预测美国大选和奥斯卡结果

12610
来自专栏企鹅号快讯

国外大学自办星际赛事 鼓励学生自制AI来对战

比起为了考试念书,电子游戏对学生的吸引力总是更强大,Inverse报道指出,中欧两所大学的电脑科学家找到方法利用这点,让玩《星际争霸:怒火燎原》(Starcra...

22290
来自专栏奇点大数据

当AI泡沫破裂时……

很显然我们目前处于一个不稳定的状态。这到底是一场泡沫还是一次革命?答案是当然包含一点革命——深度神经架构所创造的实实在在的成功已经颠覆了视觉和语音识别领域,更通...

10920

扫码关注云+社区

领取腾讯云代金券