谷歌DeepMind连续深度学习网络PNN,距人类水平AI又进一步

2016年10月18日, 世界人工智能大会技术分论坛,特设“新智元智库院长圆桌会议”,重量级研究院院长 7 剑下天山,汇集了中国人工智能产学研三界最豪华院长阵容:美团技术学院院长刘江担任主持人,微软亚洲研究院常务副院长芮勇、360人工智能研究院院长颜水成、北京理工大学计算机学院副院长黄华、联想集团副总裁黄莹、Intel 中国研究院院长宋继强、新华网融媒体未来研究院院长杨溟联袂出席。

【新智元导读】DeepMind 一直在锲而不舍地追求通用人工智能。对于通用的一个通俗解释便是,不局限于单一任务,可以将学习到知识迁移运用到新的任务中。但是目前,世界上还没有任何一个网络能被训练到既可以识别图像,又可以玩 Space Invaders 或者理解音乐。DeepMind 最新发表的论文“Progressive Neural Network”尝试解决这一难题,他们的研究在游戏中获得成功。

9月22日,在伦敦举行的 Rework 深度学习峰会上,DeepMind 和 Swifkey 就通用人工智能所取得的进展和我们距离真正的人类水平的 AI 还有多远展了开讨论。

记者 David Rowan 2015年在 Wired 上写 DeepMind 的文章中曾写到:“(DeepMind)展示了他们的 AI 智能体在只获得非常少的背景信息的情况下,已经学会了玩 49 种 Atari 2600 视频游戏。他们的深度Q-网络已经掌握了大量的技能,可以玩武术、拳击和3D赛车等游戏,并且表现一般都能好于专业的人类玩家”。

但是,这一神经网络每次只能学会一个游戏。同样的神经网络不能在两个不同的游戏中来回切换,并表现出人类所拥有的水平。

DeepMind 的研究员 Raia Hadsell 对这一问题作了解释,说明为什么这是公司发展通用人工智能上面临的巨大挑战。

传统上,一个深度学习网络是通过深度增强学习(Deep RL)进行训练,其方法是通过喂给网络大量的数据,再给充分的时间,让网络学会如何执行任务,比如识别一张图像中的元素、玩 Space Invaders 游戏,或在围棋比赛中击败李世石。

“单独看的话,这些网络非常强大, 它们每一个都能在具体的任务中实现超人类水平的表现,” Hadsell说,“但是,每一个网络又都是独立的”。目前,世界上还没有任何一种网络能被训练到既可以识别图像,又可以玩 Space Invaders 或者理解音乐。

“我们甚至还不能(一次)学会多种游戏。简单来说,我们希望一个神经网络能学会玩10个不同的 Atari 游戏,这也许是10岁孩子的水平,但是却非常难。如果你试着一次学会所有的游戏,那么,游戏 Pong 或者 Qubert 的规则可能就会彼此干扰。一次学习一个是可以的,但是就会把此前学会的技能都忘掉。”

连续深度学习

所以,与骑自行车不同,神经网络不会“一旦学会就永远掌握”。这也是Hadsell 的论文“连续深度学习”(在新智元公众号后台回复0924 可下载)中所论述的。

论文摘要

学习解决复杂的连续性任务,即同时可以迁移知识,但是又不会忘掉此前学到的重要信息,依然是实现人类水平的智能中的一大难题。连续神经网络的方法代表了在这一方向上的一个尝试:它们不会忘记先验知识,并通过连接到此前学习到的特征来利用这些知识。我们在多样的增强学习任务(Atari 和 3D 迷宫游戏)中对这一架构进行了深度评估,得到的结果要优于预训练和微调。使用一个新的灵敏度评估方法,我们证明了在学习策略中,低水平的感知层和高水平控制层中都可以发生知识迁移。

作者:Andrei A. Rusu, Neil C. Rabinowitz, Guillaume Desjardins, Hubert Soyer,James Kirkpatrick, Koray Kavukcuoglu, Razvan Pascanu, Raia Hadsell

Hadsell 描述了她的研究构想:“我们想要从一个任务开始,在上面获得专家级别的表现,随后,我们迁移到另一个连续性的任务上,使用相同的神经网络来获得专家级别的表现,在这个过程中,神经网络不会忘掉此前学会的技巧,并可以在不同的任务间实现这些技巧的相互迁移。如果任务类似的话,我希望任务1中的技巧可以有效地迁移到任务4中。我想要实现的是,只要根据任务1进行训练,就能知道其中的技巧能否写入我的神经网络代码中,并可以迁移到下一个任务。”

Hadsell 和她在DeepMind 的团队在研究连续神经网络(Progressive Neural Networks),试着实现这一AI 愿景,他们已经取得了一些进展。

连续神经网络的关键是它们是如何架构的。DeepMind 想要的不是只能一次执行一个任务的简单神经网络,而是希望把这些网络连接到一起。Hadsell 把单独的神经网络称为一个栏(Column),各个神经网络之间又是相互联系的。

Hadsell 说:"这些栏在神经网络的每一层旁边形成互连,并且, 我也会固定权重(模型的参数),这样我训练第二个栏的时候,我就知道如何使用栏1的特征,但是我不需要重新编写它们。”

这中间需要很多的技术,但是可以形成一串互相连接的神经网络,可以模仿人类大脑学习和获取信息的方式。

此前,Hadsell 和她的团队曾训练了一个单一的栏,来教一个模拟的机器人手臂抓取东西,然后接住从空中掉下了的东西,最后追踪运动物体。使用模拟的数据,也就是一个CGI 动画版本的 Jaco 机器人手臂,DeepMind 可以训练一个机器人在一天的时间内学会完成这些任务,而“真实的机器人要花55天的时间,才可以学会这些技能”,Hadsell 说。

缺点

连续神经网络的局限在于扩展性。Hadsell解释说:“如果我一直不断地增加栏,并增加旁边的连接,那么就会遇到扩展的问题,我会很快地得到某些结果,但这种结果太大,很难控制,因为参数的增长是指数级的。”

但是,从本质上看,这一系统确实可以自行解决扩展性的问题。

Hadsell 说:“我们的分析显示,你学习的新栏,比如第五个栏,或者游戏,实际上几乎没有用到新的栏,因为此前已经学到的特征都可以被用到新的游戏(或任务)中”。

神经网络与大脑的学习方式依然还有重洋之隔

当天晚些时候,今年早些时候被微软收购的AI 初创企业 Swiftkey 的 CTO Ben Medlock 也提到了通用人工智能的阻碍。他说,从根本上来讲,深度学习“一直都是监督式的模式识别”,这跟人类大脑的学习方式有重洋之隔。

他说:“深度增强最新的进展(比如 AlphaGo 和 IBM Watson)模型与此不同,他们只是在正确的方向上迈出了一步,但是,我们需要的是从大量的数据中进行的学习,以及,从非常少的数据样本中进行学习的人类大脑。”

那么,DeepMind 在创造通用人工智能上还有多远的路要走?他们并没有指出具体的时间线,Hadsell 在接受 Techworld 的采访时说:“随着我们不断获得突破,我们会不断提升,并改变追求的目标”。

“我认为,在这一领域中,我们做了一些非常棒的工作,比如,能够让手臂机器人拥有多个任务技能。但是,要在相同的网络中融入视觉和听觉感知,以及其他不同方向的技能,依然还有很长的路要走。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-09-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

Intel研究院院长吴甘沙:大数据分析师的卓越之道(珍藏版)

素材来自:经管之家(bbs.pinggu.org) 组织“中国数据分析师行业峰会”。

19320
来自专栏智慧建筑

人工智能

在智慧建筑项目中会接触到一些AI相关的功能。人脸识别是其中最常用的算法,基本是每个项目标配。今天就从人脸识别入手谈谈AI在实际项目中的使用情况。

28140
来自专栏PPV课数据科学社区

一名合格的机器学习工程师需要具备的5项基本技能,你都get了吗?

你是否对机器学习充满兴趣呢?其实到目前为止,每天有越来越多的工程师开始将好奇的目光转向机器学习领域。实际上,你会发现现在没有哪一个领域比机器学习能引起更多的曝...

42790
来自专栏FreeBuf

机器学习对抗案例 | 愚弄Google图像识别算法

2018年CES在美国拉斯维加斯召开,站在风口浪尖上的科技企业纷纷出动,在会场各显神通地展示自己的科技产品和各种智能算法。近年来,人工智能的浪潮不断拍打着 IT...

35190
来自专栏新智元

【春节最强AI游记】最全一手讲者报告实录+BATJ等企业展位,360度带你重温AAAI

新智元专栏 作者:张祥文 编辑:小奇 【新智元导读】厦大学子以一篇图文并茂的游记,带你重温今年的AAAI:详细介绍数场重磅讲者报告、亚马逊及阿里巴巴等提...

37080
来自专栏灯塔大数据

预测分析|机器学习是如何预测《权利的游戏》中的叛徒

几个月之前,Airbnb发布了一篇博文,在这篇文章中作者向读者介绍了他们的数据科学家建立一个机器学习模型来保护自己的用户免遭来自恶意行为的欺诈危害。如果我们将具...

38350
来自专栏数据派THU

【独家】微软郑宇:大数据驱动智能城市讲座精华(附PPT)

[导读]本文整理自微软亚洲研究院“城市计算”领域负责人郑宇博士近期在清华大数据讲座上的分享内容。郑宇主持研发的Urban Air首次利用大数据来监测和预报细粒度...

37780
来自专栏新智元

为什么人工智能没有让互联网变得更智能?

商业互联网已经出现20多年,但从你收到第一份电子情书到现在,互联网的整体用户体验并没有太多变化。 互联网最初仅被用于政府,高校和企业通用的研发工具。随着超链接的...

34150
来自专栏大数据文摘

Intel研究院院长吴甘沙演讲全文:大数据分析师的卓越之道(32PPT珍藏版)

30160
来自专栏机器之心

业界 | 人机对话评测系列之一:任务驱动多轮对话评测标准

机器之心转载 公众号:Trio 如何评测语义领域相关技术是大家共同关注的。三角兽公司基于多年理论和相关技术实践的经验,针对语义领域的 4个方向技术,将会发表一系...

38380

扫码关注云+社区

领取腾讯云代金券