谷歌DeepMind连续深度学习网络PNN,距人类水平AI又进一步

来源: Techworld/新智元

译者:弗格森

【PPV课导读】DeepMind 一直在锲而不舍地追求通用人工智能。对于通用的一个通俗解释便是,不局限于单一任务,可以将学习到知识迁移运用到新的任务中。但是目前,世界上还没有任何一个网络能被训练到既可以识别图像,又可以玩 Space Invaders 或者理解音乐。DeepMind 最新发表的论文“Progressive Neural Network”尝试解决这一难题,他们的研究在游戏中获得成功。

9月22日,在伦敦举行的 Rework 深度学习峰会上,DeepMind 和 Swifkey 就通用人工智能所取得的进展和我们距离真正的人类水平的 AI 还有多远展了开讨论。

记者 David Rowan 2015年在 Wired 上写 DeepMind 的文章中曾写到:“(DeepMind)展示了他们的 AI 智能体在只获得非常少的背景信息的情况下,已经学会了玩 49 种 Atari 2600 视频游戏。他们的深度Q-网络已经掌握了大量的技能,可以玩武术、拳击和3D赛车等游戏,并且表现一般都能好于专业的人类玩家”。

但是,这一神经网络每次只能学会一个游戏。同样的神经网络不能在两个不同的游戏中来回切换,并表现出人类所拥有的水平。

DeepMind 的研究员 Raia Hadsell 对这一问题作了解释,说明为什么这是公司发展通用人工智能上面临的巨大挑战。

传统上,一个深度学习网络是通过深度增强学习(Deep RL)进行训练,其方法是通过喂给网络大量的数据,再给充分的时间,让网络学会如何执行任务,比如识别一张图像中的元素、玩 Space Invaders 游戏,或在围棋比赛中击败李世石。

“单独看的话,这些网络非常强大, 它们每一个都能在具体的任务中实现超人类水平的表现,” Hadsell说,“但是,每一个网络又都是独立的”。目前,世界上还没有任何一种网络能被训练到既可以识别图像,又可以玩 Space Invaders 或者理解音乐。

“我们甚至还不能(一次)学会多种游戏。简单来说,我们希望一个神经网络能学会玩10个不同的 Atari 游戏,这也许是10岁孩子的水平,但是却非常难。如果你试着一次学会所有的游戏,那么,游戏 Pong 或者 Qubert 的规则可能就会彼此干扰。一次学习一个是可以的,但是就会把此前学会的技能都忘掉。”

连续深度学习

所以,与骑自行车不同,神经网络不会“一旦学会就永远掌握”。这也是Hadsell 的论文“连续深度学习”(在PPV课公众号后台回复234 可下载)中所论述的。

论文摘要

学习解决复杂的连续性任务,即同时可以迁移知识,但是又不会忘掉此前学到的重要信息,依然是实现人类水平的智能中的一大难题。连续神经网络的方法代表了在这一方向上的一个尝试:它们不会忘记先验知识,并通过连接到此前学习到的特征来利用这些知识。我们在多样的增强学习任务(Atari 和 3D 迷宫游戏)中对这一架构进行了深度评估,得到的结果要优于预训练和微调。使用一个新的灵敏度评估方法,我们证明了在学习策略中,低水平的感知层和高水平控制层中都可以发生知识迁移。

作者:Andrei A. Rusu, Neil C. Rabinowitz, Guillaume Desjardins, Hubert Soyer,James Kirkpatrick, Koray Kavukcuoglu, Razvan Pascanu, Raia Hadsell

在PPV课公众号后台回复234,可下载论文

Hadsell 描述了她的研究构想:“我们想要从一个任务开始,在上面获得专家级别的表现,随后,我们迁移到另一个连续性的任务上,使用相同的神经网络来获得专家级别的表现,在这个过程中,神经网络不会忘掉此前学会的技巧,并可以在不同的任务间实现这些技巧的相互迁移。如果任务类似的话,我希望任务1中的技巧可以有效地迁移到任务4中。我想要实现的是,只要根据任务1进行训练,就能知道其中的技巧能否写入我的神经网络代码中,并可以迁移到下一个任务。”

Hadsell 和她在DeepMind 的团队在研究连续神经网络(Progressive Neural Networks),试着实现这一AI 愿景,他们已经取得了一些进展。

连续神经网络的关键是它们是如何架构的。DeepMind 想要的不是只能一次执行一个任务的简单神经网络,而是希望把这些网络连接到一起。Hadsell 把单独的神经网络称为一个栏(Column),各个神经网络之间又是相互联系的。

Hadsell 说:"这些栏在神经网络的每一层旁边形成互连,并且, 我也会固定权重(模型的参数),这样我训练第二个栏的时候,我就知道如何使用栏1的特征,但是我不需要重新编写它们。”

这中间需要很多的技术,但是可以形成一串互相连接的神经网络,可以模仿人类大脑学习和获取信息的方式。

此前,Hadsell 和她的团队曾训练了一个单一的栏,来教一个模拟的机器人手臂抓取东西,然后接住从空中掉下了的东西,最后追踪运动物体。使用模拟的数据,也就是一个CGI 动画版本的 Jaco 机器人手臂,DeepMind 可以训练一个机器人在一天的时间内学会完成这些任务,而“真实的机器人要花55天的时间,才可以学会这些技能”,Hadsell 说。

缺点

连续神经网络的局限在于扩展性。Hadsell解释说:“如果我一直不断地增加栏,并增加旁边的连接,那么就会遇到扩展的问题,我会很快地得到某些结果,但这种结果太大,很难控制,因为参数的增长是指数级的。”

但是,从本质上看,这一系统确实可以自行解决扩展性的问题。

Hadsell 说:“我们的分析显示,你学习的新栏,比如第五个栏,或者游戏,实际上几乎没有用到新的栏,因为此前已经学到的特征都可以被用到新的游戏(或任务)中”。

神经网络与大脑的学习方式依然还有重洋之隔

当天晚些时候,今年早些时候被微软收购的AI 初创企业 Swiftkey 的 CTO Ben Medlock 也提到了通用人工智能的阻碍。他说,从根本上来讲,深度学习“一直都是监督式的模式识别”,这跟人类大脑的学习方式有重洋之隔。

他说:“深度增强最新的进展(比如 AlphaGo 和 IBM Watson)模型与此不同,他们只是在正确的方向上迈出了一步,但是,我们需要的是从大量的数据中进行的学习,以及,从非常少的数据样本中进行学习的人类大脑。”

那么,DeepMind 在创造通用人工智能上还有多远的路要走?他们并没有指出具体的时间线,Hadsell 在接受 Techworld 的采访时说:“随着我们不断获得突破,我们会不断提升,并改变追求的目标”。

“我认为,在这一领域中,我们做了一些非常棒的工作,比如,能够让手臂机器人拥有多个任务技能。但是,要在相同的网络中融入视觉和听觉感知,以及其他不同方向的技能,依然还有很长的路要走。

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2016-09-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

Intel研究院院长吴甘沙演讲全文:大数据分析师的卓越之道(32PPT珍藏版)

素材来自:经管之家(bbs.pinggu.org) 组织“中国数据分析师行业峰会”。

12230
来自专栏CSDN技术头条

携程:机器学习在酒店服务领域的实践

在携程技术中心推出的线上公开课程[携程技术微分享]上,携程酒店研发BI经理潘鹏举介绍了如何借助大数据和算法,通过机器学习去克服酒店服务行业挑战。目前的应用主要包...

36880
来自专栏CDA数据分析师

一名合格的机器学习工程师需要具备的5项基本技能,你都get了吗?

你是否对机器学习充满兴趣呢?其实到目前为止,每天有越来越多的工程师开始将好奇的目光转向机器学习领域。实际上,你会发现现在没有哪一个领域比机器学习能引起更多的曝光...

20490
来自专栏AI科技大本营的专栏

DeepMind 研发出类脑 AI 神经元,具备超强空间导航能力

Google 旗下人工智能公司 DeepMind 的研究人员最近在《自然》杂志上发表论文,宣布同伦敦大学学院的神经生理学家合作,研发出了能够模拟哺乳动物大脑中网...

12610
来自专栏数据派THU

全解今日头条大数据算法原理(附PPT&视频)

来源:今日头条 通过本文为大家从4个方面介绍今日头条推荐系统的算法原理。 3分钟了解今日头条推荐算法原理 今天,算法分发已经是信息平台、搜索引擎、浏览器、社交...

61140
来自专栏华章科技

Intel研究院院长吴甘沙:大数据分析师的卓越之道(珍藏版)

亲爱的各位同仁,各位同学,早上好。大数据时代数据分析师应该做什么改变?我今天的标题是大数据分析师的卓越之道。这个演讲信息量比较大,我讲的不一定对,即使对的我也不...

9220
来自专栏ATYUN订阅号

成为Beatbox大佬:AI助力将声音转化为节奏

为了帮助崭露头角的音乐家为他们的歌曲创造最佳节奏,来自日本AI创业公司的开发人员开发了一种名为Neural Beatboxer的深度学习系统,可将日常的声音转换...

12730
来自专栏AI研习社

今日头条推荐算法原理首公开,头条首席算法架构师带来详细解读

今天,算法分发已经是信息平台、搜索引擎、浏览器、社交软件等几乎所有软件的标配,但同时,算法也开始面临质疑、挑战和误解。今日头条的推荐算法,从2012年9月第一版...

54890
来自专栏非著名程序员

今日头条算法原理详解(全)

本次分享将主要介绍今日头条推荐系统概览以及内容分析、用户标签、评估分析,内容安全等原理。

17750
来自专栏程序员宝库

今日头条算法原理(全)

▲3分钟了解今日头条推荐算法原理 今天,算法分发已经是信息平台、搜索引擎、浏览器、社交软件等几乎所有软件的标配,但同时,算法也开始面临质疑、挑战和误解。今日头条...

52270

扫码关注云+社区

领取腾讯云代金券