前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Google搞出的AlphaGo,打开了机器学习的神秘之门

Google搞出的AlphaGo,打开了机器学习的神秘之门

作者头像
量子位
发布2018-03-21 14:37:32
6210
发布2018-03-21 14:37:32
举报
文章被收录于专栏:量子位量子位

两个机械臂,尝试打开两扇关闭的门。两个机器臂向前伸出,然后全都错过门把手。重来,再试一次,结果撞到把手上,门框铛铛作响。于是再试一次。再一次。几个小时的试验和犯错之后,两个机械臂都能干净利索的把门打开,次次如此。

这两个机械臂都待在Google内部的某处,虽然机械装置很早就能敏捷的拉开门,但这次有所不同:这两个机械臂自己学会了打开门。依靠一种称为“强化学习”的技术,它们训练自己执行一个特定的任务,一遍又一遍的训练,学会怎么做是可行的,怎么是不可行的。

去年相同的技术驱动着AlphaGo学会了古老的围棋,而且下得比人类更好。现在这个技术正把机器人推向一个全新的领域。

除了几个视频和两个事实性的博客文章,Google不愿更多谈论这项研究(这项研究由加州大学伯克利分校的Sergey Levine负责)。诚然这一项目还处于早期阶段,但它意味着一次深刻变革:机器可以自己学会做事情,而不是遵守人类工程师预先规划好的程序。

强化学习以及相关技术,被认为可以加速自主机器人的发展,此前这些方法已经在纯数字领域带来的巨大的进步。在这个过程中,机器人硬件也在迅速演变,例如网上那些波士顿动力呈现的震撼视频。讽刺的是,特朗普信誓旦旦要给美国带来更多的工作岗位,而研究人员们正在推动能够自主学习的机器人取代人类的工作岗位。

试错

强化学习并不是刚刚出现的技术。两年前,Google收购的人工智能公司DeepMind,开始利用这项技术开发一套AI系统。结果这套系统玩(比小霸王还久远的)雅达利主机游戏《打砖块》时,表现的水准远远超过人类。

这个游戏就是用一个不断弹跳的小球,消灭眼前的一堆砖块。AI甚至学会了一个更省事、更有效的打法,让小球砸开一个通道,绕到后面去消灭砖块。

后面的故事,就更为人所知了。DeepMind把相同的技术运用在围棋上面,一举战胜人类顶尖棋手,比此前的预期还早了十年。DeepMind创始人Demis Hassabis和他的团队,把3000万盘棋谱“喂给”一个神经网络,这个网络可以通过分析大量数据来自动学习。

一旦系统学会了如何下棋,它还可以通过一遍一遍的与自己对战,不断不断的提高棋力。

强化学习特别适用于游戏领域。这个技术由“奖励机制”驱动,这个机制能够追踪判断哪些动作可以带来奖励,哪些不能。在游戏中,奖励是显而易见的:更多的积分。但是这一技术被应用在现实世界时,如何设定奖励并不容易,有时候可能非常困难。

而对于Google的机器人来说,开门就是奖励。

新世界

当然,打开门只是奔向新世界的第一小步。更大的目标会变得非常复杂、非常迅速而且非常昂贵。这也是为什么许多研究人员在进入物理世界探索之前,现在数字世界模拟强化学习,他们希望尽量弥合游戏和真实机器人之间的差距。

OpenAI,一家由硅谷钢铁侠Elon Musk等投资10亿美元打造的人工智能实验室,前不久推出一个名为Universe的扫描软件平台。在这个虚拟平台上,AI们能够借助强化学习来掌握各种电脑应用程序,从游戏到浏览器。理论上,AI学到的技能也能应用在现实世界。

有人就在Universe上用赛车游戏训练AI,并准备应用在无人驾驶汽车上。

英国剑桥的一家创业公司Prowler.io,也在沿着同样的道路前进。这个小团队的研究人员,正在教AI在大型多人游戏的虚拟世界里开车。未来,他们计划把虚拟世界的工作成果,应用到现实世界之中,教会机器人和无人驾驶汽车。现在的无人驾驶汽车,大多是根据工程师编制的一大套规则作出决定,这与真正的自主决断相去甚远。

Prowler的创始人兼首席执行官Vishal Chatrath认为,强化学习和相关技术对于建设真正的自主车辆至关重要,未来汽车自身就可以做一切人类驾驶者能做的事情。顺便提一句,Chatrath把他以前的AI公司卖给了苹果公司。

在德国柏林,Micropsi已经将这些技术推广到物理系统中,就像Google一样。这家公司通过强化学习训练,来建立机器人模拟系统。他们让虚拟机器人手臂,学习平衡虚拟手指末端的虚拟杆。这套系统模拟重力和机器人的运动,奖励取决于杆落下与否。

现实

问题是,物理世界没那么简单。Micropsi声称可以通过模拟计算,解决所有的机器人问题,但模拟毕竟不是真实世界。在模拟世界里,你可以教一个机器人掌握平衡,但是让机器人学会把插头插入插座,最后还是得借助于真实的插头和真实的插座。

插电源是一个简单的问题,因为这个任务的奖励简单明了。但是当几个任务串在一起时,奖励系统就会变得非常复杂。卡内基梅隆大学的Abhinav Gupta,正在Google的资助下研究类似技术,他对强化学习在短期的效果有所质疑。

Gupta和他的团队正基于卷积神经网络进行探索,这是一种广泛用户图像识别的机器学习技术,所有这些技术都有赖于大量的数据基础。

至少在现阶段,Chatrath认为想要基于物理世界探索AI,最好是通过玩具:那些小而简单的机械产品们。他的想法是,如果系统学会使用简单的机器,就可以让他们学习掌握更复杂的机器。显然机器不会只有一种学习方式。门打开了,新征途开始了。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-02-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 试错
  • 新世界
  • 现实
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档