前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >谷歌DeepMind连续深度学习网络PNN,距人类水平AI又进一步

谷歌DeepMind连续深度学习网络PNN,距人类水平AI又进一步

作者头像
小莹莹
发布2018-04-25 10:20:23
9030
发布2018-04-25 10:20:23
举报

来源: Techworld/新智元

译者:弗格森

【PPV课导读】DeepMind 一直在锲而不舍地追求通用人工智能。对于通用的一个通俗解释便是,不局限于单一任务,可以将学习到知识迁移运用到新的任务中。但是目前,世界上还没有任何一个网络能被训练到既可以识别图像,又可以玩 Space Invaders 或者理解音乐。DeepMind 最新发表的论文“Progressive Neural Network”尝试解决这一难题,他们的研究在游戏中获得成功。

9月22日,在伦敦举行的 Rework 深度学习峰会上,DeepMind 和 Swifkey 就通用人工智能所取得的进展和我们距离真正的人类水平的 AI 还有多远展了开讨论。

记者 David Rowan 2015年在 Wired 上写 DeepMind 的文章中曾写到:“(DeepMind)展示了他们的 AI 智能体在只获得非常少的背景信息的情况下,已经学会了玩 49 种 Atari 2600 视频游戏。他们的深度Q-网络已经掌握了大量的技能,可以玩武术、拳击和3D赛车等游戏,并且表现一般都能好于专业的人类玩家”。

但是,这一神经网络每次只能学会一个游戏。同样的神经网络不能在两个不同的游戏中来回切换,并表现出人类所拥有的水平。

DeepMind 的研究员 Raia Hadsell 对这一问题作了解释,说明为什么这是公司发展通用人工智能上面临的巨大挑战。

传统上,一个深度学习网络是通过深度增强学习(Deep RL)进行训练,其方法是通过喂给网络大量的数据,再给充分的时间,让网络学会如何执行任务,比如识别一张图像中的元素、玩 Space Invaders 游戏,或在围棋比赛中击败李世石。

“单独看的话,这些网络非常强大, 它们每一个都能在具体的任务中实现超人类水平的表现,” Hadsell说,“但是,每一个网络又都是独立的”。目前,世界上还没有任何一种网络能被训练到既可以识别图像,又可以玩 Space Invaders 或者理解音乐。

“我们甚至还不能(一次)学会多种游戏。简单来说,我们希望一个神经网络能学会玩10个不同的 Atari 游戏,这也许是10岁孩子的水平,但是却非常难。如果你试着一次学会所有的游戏,那么,游戏 Pong 或者 Qubert 的规则可能就会彼此干扰。一次学习一个是可以的,但是就会把此前学会的技能都忘掉。”

连续深度学习

所以,与骑自行车不同,神经网络不会“一旦学会就永远掌握”。这也是Hadsell 的论文“连续深度学习”(在PPV课公众号后台回复234 可下载)中所论述的。

论文摘要

学习解决复杂的连续性任务,即同时可以迁移知识,但是又不会忘掉此前学到的重要信息,依然是实现人类水平的智能中的一大难题。连续神经网络的方法代表了在这一方向上的一个尝试:它们不会忘记先验知识,并通过连接到此前学习到的特征来利用这些知识。我们在多样的增强学习任务(Atari 和 3D 迷宫游戏)中对这一架构进行了深度评估,得到的结果要优于预训练和微调。使用一个新的灵敏度评估方法,我们证明了在学习策略中,低水平的感知层和高水平控制层中都可以发生知识迁移。

作者:Andrei A. Rusu, Neil C. Rabinowitz, Guillaume Desjardins, Hubert Soyer,James Kirkpatrick, Koray Kavukcuoglu, Razvan Pascanu, Raia Hadsell

在PPV课公众号后台回复234,可下载论文

Hadsell 描述了她的研究构想:“我们想要从一个任务开始,在上面获得专家级别的表现,随后,我们迁移到另一个连续性的任务上,使用相同的神经网络来获得专家级别的表现,在这个过程中,神经网络不会忘掉此前学会的技巧,并可以在不同的任务间实现这些技巧的相互迁移。如果任务类似的话,我希望任务1中的技巧可以有效地迁移到任务4中。我想要实现的是,只要根据任务1进行训练,就能知道其中的技巧能否写入我的神经网络代码中,并可以迁移到下一个任务。”

Hadsell 和她在DeepMind 的团队在研究连续神经网络(Progressive Neural Networks),试着实现这一AI 愿景,他们已经取得了一些进展。

连续神经网络的关键是它们是如何架构的。DeepMind 想要的不是只能一次执行一个任务的简单神经网络,而是希望把这些网络连接到一起。Hadsell 把单独的神经网络称为一个栏(Column),各个神经网络之间又是相互联系的。

Hadsell 说:"这些栏在神经网络的每一层旁边形成互连,并且, 我也会固定权重(模型的参数),这样我训练第二个栏的时候,我就知道如何使用栏1的特征,但是我不需要重新编写它们。”

这中间需要很多的技术,但是可以形成一串互相连接的神经网络,可以模仿人类大脑学习和获取信息的方式。

此前,Hadsell 和她的团队曾训练了一个单一的栏,来教一个模拟的机器人手臂抓取东西,然后接住从空中掉下了的东西,最后追踪运动物体。使用模拟的数据,也就是一个CGI 动画版本的 Jaco 机器人手臂,DeepMind 可以训练一个机器人在一天的时间内学会完成这些任务,而“真实的机器人要花55天的时间,才可以学会这些技能”,Hadsell 说。

缺点

连续神经网络的局限在于扩展性。Hadsell解释说:“如果我一直不断地增加栏,并增加旁边的连接,那么就会遇到扩展的问题,我会很快地得到某些结果,但这种结果太大,很难控制,因为参数的增长是指数级的。”

但是,从本质上看,这一系统确实可以自行解决扩展性的问题。

Hadsell 说:“我们的分析显示,你学习的新栏,比如第五个栏,或者游戏,实际上几乎没有用到新的栏,因为此前已经学到的特征都可以被用到新的游戏(或任务)中”。

神经网络与大脑的学习方式依然还有重洋之隔

当天晚些时候,今年早些时候被微软收购的AI 初创企业 Swiftkey 的 CTO Ben Medlock 也提到了通用人工智能的阻碍。他说,从根本上来讲,深度学习“一直都是监督式的模式识别”,这跟人类大脑的学习方式有重洋之隔。

他说:“深度增强最新的进展(比如 AlphaGo 和 IBM Watson)模型与此不同,他们只是在正确的方向上迈出了一步,但是,我们需要的是从大量的数据中进行的学习,以及,从非常少的数据样本中进行学习的人类大脑。”

那么,DeepMind 在创造通用人工智能上还有多远的路要走?他们并没有指出具体的时间线,Hadsell 在接受 Techworld 的采访时说:“随着我们不断获得突破,我们会不断提升,并改变追求的目标”。

“我认为,在这一领域中,我们做了一些非常棒的工作,比如,能够让手臂机器人拥有多个任务技能。但是,要在相同的网络中融入视觉和听觉感知,以及其他不同方向的技能,依然还有很长的路要走。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-09-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PPV课数据科学社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档