递归神经网络之父:打造无监督式通用神经网络人工智能

【新智元导读】瑞士人工智能实验室IDSIA的科学事务主管Jürgen Schmidhuber 1997年率领团队提出了简化时间递归神经网络的长短期记忆时间递归神经网络(LSTM RNN),由此奠定了“递归神经网络之父”的美誉。在接受InfoQ的采访时,Schmidhuber 讲述了他对深度学习及人工智能发展趋势的看法。他一直以来的目标都是“打造一个比我更聪明的人工智能”,目前,他的新创公司也致力于研究通用神经网络人工智能,而要实现这一目标,Schmidhuber 认为需要的不仅仅是普通的深度学习。

近来,机器学习已经成为媒体上的热门词汇。最近,《科学》杂志发表了题为《通过概率规划归纳的人类层次概念学习》(Human-level concept learning through probabilistic program induction)的封面文章。不久之后,《自然》杂志在封面文章中报道了AlphaGo,这个打败了欧洲围棋冠军的人工智能程序。

目前,很多人都在讨论人工智能的潜力,提出各种各样的问题,比如“机器能像人类一样学习吗?”,“人工智能是否会超越人类智能?”等等。

为了回答这些问题,InfoQ采访了尤尔根·施米德休伯教授(Jürgen Schmidhuber),他是瑞士人工智能实验室IDSIA的科学事务主管。他和我们分享了更多关于深度学习以及人工智能最新趋势和发展动态的信息。

尤尔根·施米德休伯教授是瑞士人工智能实验室IDSIA的科学事务主管,同时任教于卢加诺大学和瑞士南部应用科学与艺术学院。他于1987年和1991年在慕尼黑工业大学先后获得计算机科学的学士和博士学位。

自1987年以来,他一直引领着自我改进式通用问题求解程序的研究。从1991年开始,他成为深度学习神经网络领域的开拓者。他在IDSIA和慕尼黑工业大学的研究团队开发了一种递归神经网络,并率先在正式的国际性比赛中获胜。这些技术革新了连续手写识别、语音识别、机器翻译和图片注释,现在被谷歌、微软、IBM、百度和其他很多公司应用。DeepMind深受他以前博士学生的影响。

从2009年起,施米德休伯教授成为了欧洲科学与艺术学院的院士。他获得过很多奖项,包括2013年国际神经网络协会的亥姆霍兹奖,以及2016年电气与电子工程师协会的神经网络先锋奖。2014年,他参与创办了人工智能公司NNAISENSE,旨在打造第一个有实用价值的通用人工智能。


深度学习是装载新瓶子里的旧酒

什么是深度学习?它有着怎样的历史?

施米德休伯:它是装在新瓶子里的旧酒。它主要是关于拥有多个后续处理层的深度神经网络。利用如今速度更快的计算机,这样的网络已经彻底改变了模式识别和机器学习。“深度学习”这一术语由德克特(Dechter)在1986年首度引入机器学习领域,然后由艾森伯格(Aizenberg)等人在2000年引入人工神经网络领域。

深度学习之父是乌克兰的数学家伊凡卡内科(Ivakhnenko)。1965年,他和拉帕(Lapa)共同编写了第一个用于监督式前馈多层感知的通用可行学习算法。1971年,他已经描述了一个八层的网络(即使按照当前的标准,仍然称得上有深度),并使用一种在新千年仍然流行的方法对它进行训练。他远远领先于自己的时代——当时,计算机的运算速度比现在慢10亿倍。

你对《科学》杂志上那篇关于人类层次概念学习的论文有何看法,它通过贝叶斯程序学习框架实现了“一次性学习”。

施米德休伯:那篇论文很有趣。不过,我们也能通过标准的迁移学习来实现快速的一次性学习。方法就是,首先,基于众多不同的视觉训练集“慢慢地”训练一个深度神经网络,使得网络的前10层变成一个相当通用的视觉预处理器;

然后,冻结这10层,以高学习速率在新图像上仅对第11层进行重新训练。多年来,这种方法一直运转良好。

马库斯·胡特

贝叶斯方法和深度学习方法有何异同?哪一种方法更可行?为什么?

施米德休伯:机器学习的终极优化版贝叶斯法在马库斯·胡特(Marcus Hutter)2002年提出的AIXI模型中得到了体现。他曾是我的博士后学生,现在是一名教授。任何计算问题都可以被表述为一个回报函数的最大化问题。

AIXI模型基于所罗门诺夫(Solomonoff)的通用归纳模型M,其中包含了所有可计算的概率分布。如果世界对一些强化学习智能体行为的反应概率是可计算的(没有证据可以反驳这一点),那么该智能体就可能用M(而不是其他准确却未知的分布)来预测自己未来的感官输入和回报,它就可以通过选择使M预测回报最大化的行为序列来实现行动的最优化。

这或许可以被称为人工智能无与伦比的终极统计学方法——它展示了可能性的数学极限。然而,AIXI的最优化概念忽略了时间的计算,这就是我们为什么仍然在使用通用性较差但更可行的方法,比如基于局限性更强的本地搜索技术(如梯度下降法)的深度学习。

《科学》杂志上的那篇论文称,其结果“通过了视觉图灵测试”。 图灵测试这种在半个多世纪以前提出的测试方法,至今仍然有效吗?

施米德休伯:跟我聊天的对象在我看来像是人类吗?如果像,那么它就通过了我个人的图灵测试。这种测试的主要问题在于,它的主观性太强,正如维森鲍姆(Weizenbaum)几十年前所证明的那样。有一些人总比其他人更容易上当。

维森鲍姆

与 DeepMind 不解之缘

你对《自然》杂志上谷歌DeepMind关于AlphaGo的论文有何看法,它是一款击败了职业围棋选手的程序。AlphaGo算是这个领域的重大突破吗?是什么帮助AlphaGo取得了这样的成就?

施米德休伯:我对谷歌DeepMind的成功感到高兴,这也是因为该公司深受我以前学生的影响:在DeepMind最初的四名成员中,有两人来自IDSIA,一位是联合创始人,另一位是DeepMind的首名员工,他们也是该公司最早的人工智能学博士;后来,我的另外几位博士生也加入了DeepMind,其中一位曾在2010年与我联合发表了一篇关于“吃子棋”的论文。

在围棋这种棋盘游戏中,“马尔科夫假设”是成立的:原则上,当前的输入(即棋盘状态)包含了确定下一步最佳行动所需的全部信息,不需要考虑之前的状态。

也就是说,该游戏可以通过传统的强化学习来处理。这有点像20年前的情形,当时IBM的特索罗(Tesauro)利用强化学习从头学起,打造出一个可与人类世界冠军匹敌的双陆棋程序。

然而,到了如今,我们从一个事实中受益良多:每单位成本计算机的速度至少比以前快1万倍。过去几年中,自动化的围棋程序已经得到极大的改进。为了学习成为一位优秀的围棋选手,DeepMind的系统结合使用了多种传统方法,比如监督式学习(即向人类专家学习)以及基于蒙特卡洛树搜索的强化学习。

然而很可惜,“马尔科夫假设”的条件在现实世界的场景中并不成立。这就是为什么现实世界的游戏(比如足球)要比国际象棋或围棋更难,也正因为此,生活在部分可观测环境中的强化学习机器人的强人工智能,才需要更复杂的学习算法,比如针对递归神经网络的强化学习。

最近,谷歌DeepMind宣布进军医疗市场,你对此有什么看法?

施米德休伯:我们对深度学习在医疗领域的应用非常感兴趣。事实上,2012年时,IDSIA的团队就开发出了首个赢得医疗成像大赛的深度学习程序。

看到很多公司现在都将深度学习用于医疗成像和类似领域,我很高兴。全世界每年在医疗保健上的花费占到GDP总量的10%以上(每年超过7万亿美元),其中大部分是用于医疗诊断。

实现这个过程的部分自动化不仅可以省下数十亿美元的资金,还可以让很多目前无力负担费用的人享受到专家级的医疗诊断。在这种语境下,医院最宝贵的资产也许是它们的数据——这就是为什么IBM会在一家收集此类数据的公司身上花费10亿美元。

你怎样看待IBM的新沃森物联网平台?人工智能在物联网领域有何潜力?对人工智能来说,“人工智能即服务”会成为一种有前景的趋势吗?

施米德休伯:物联网的规模会比人联网大得多,因为机器的数量远远多于人类。而且,很多机器的确会向其他机器提供“人工智能服务”。广告让人联网具有了商业化能力,但物联网的商业模式似乎没有那么明显。

机器还不能像人一样学习,但是快了

有人说,未来属于无监督式学习,你认同吗?

施米德休伯:我会说,过去也属于无监督式学习,也就是在没有老师监督的情况下,检测所观察现象中的规律性,这本质上就是适应性的数据压缩,比如通过预测编码。我在25年前发表了这方面的第一篇论文——实际上,这篇论文在1991年催生出第一个可以运行的“极深学习程序”,它可以处理数百个后续计算层。

机器可以像人类那样学习吗?

施米德休伯:目前还不能,但可能快了。

大家也可以看看这篇关于“学习思考”的文章:无监督式数据压缩是基于递归神经网络的适应性智能体的核心组成部分,这些智能体可以利用基于递归神经网络的预测性模型来更好地规划和实现目标。我们在1990年首次发表了这方面的论文,并在此后取得了很多进展。

人工智能存在限制吗?

施米德休伯:要说限制,那基本上就是理论计算机科学之父库尔特·哥德尔(Kurt Gödel)在85年前(1931年)提出的可计算性的限制。

爱因斯坦与哥德尔

哥德尔的研究表明,传统数学要么是在某种算法意义上存在缺陷,要么就是包含了无法通过计算程序(不管是人类还是人工智能)来证明的真实陈述。

下一步是什么?

在你看来,人类和计算机之间的理想分工是什么样的?

施米德休伯:人类应该摆脱所有繁重和枯燥的工作,由计算机负责剩下的。

你凭借在递归神经网络方面的开创性工作而声名远播,尤其是如今被广泛用于深度学习的长短期记忆网络。你能不能针对长短期记忆网络,向我们做一下简短的背景介绍和技术说明?你认为长短期记忆网络最适合应用在哪些领域?是否有现实中的例子?

施米德休伯:监督式长短期记忆递归神经网络属于可以学习并行序列程序的通用计算机,它们可以处理包括视频和语音在内的各种片段。

从上世纪90年代初开始,我的实验室开发出了这种网络。长短期记忆递归神经网络的某些组成部分经过了特别设计,使得反向传播错误既不会消失也不会扩大,而是以一种“文明的”方式,经过数千乃至更多步骤倒流回去。

因此,长短期记忆的变种网络可以学习此前不可学习的“极深学习”任务,这些任务要求发现(并记忆)发生在数千个离散时间步骤之前的事件的重要性,而此前的标准递归神经网络在面对十个步骤的最小时滞时,就已经无能为力了。它甚至有可能推进针对特定问题的长短期记忆网络式拓扑学 。

在2007年左右,通过我们的连接时序分类法进行训练的长短期记忆网络开始革新语音识别,在关键词识别任务中,它的表现超过了传统方法。

后来,长短期记忆网络还帮助谷歌提升了图像识别、机器翻译、文本到语音合成、自然语言处理的句法分析以及其他多项应用。2015年时,通过连接时序分类法训练的长短期记忆网络极大地改进了Google Voice(性能提升达49%),现在为逾10亿智能手机用户带来了便利。此外,微软、IBM和其他知名公司也在大量使用长短期记忆网络。

你的团队在九项国际模式识别大赛中夺魁,比如手写识别和交通标志识别,等等,你们是如何做到的?

施米德休伯:赢得这么多比赛,我的团队的确很自豪,这些比赛包括:

  • MICCAI 2013有丝分裂检测挑战赛
  • ICPR 2012乳腺癌组织图像有丝分裂检测大赛
  • ISBI 2012大脑图像分裂挑战赛
  • IJCNN 2011交通标志识别大赛
  • ICDAR 2011离线中国书法大赛
  • 在线德国交通标志识别大赛
  • ICDAR 2009阿拉伯语连续手写识别大赛
  • ICDAR 2009波斯语/阿拉伯字符手写识别大赛
  • ICDAR 2009法语连续手写识别大赛

我们团队是如何做到的?凭借创意、执着、拼搏和奉献。

你还特别强调了极深网络的重要性,是吗?

施米德休伯:由于深度意味着计算能力和效率,我们从一开始就非常注重极深神经网络。举例来说,直到上世纪90年代初,其他人仍然局限于相当浅的网络(后续计算层少于10个),而我们的方法已经启用了逾1000个这样的计算层。

可以这么说,正是我们把神经网络做得非常之深,尤其是递归网络,它们是最深、最强大的网络。在当时,几乎没有研究人员对此感兴趣,但我们坚持了下来。

在拥有了成本越来越低的计算能力之后,通过这样的方法赢得比赛就只是一个时间问题了。如今,看到其他深度学习实验室和企业也在大量使用我们的算法,我感到很高兴。

前面提到的比赛都是关于模式识别——对于强化学习以及无监督式序贯决策这种更为一般性的领域,你推荐使用什么方法?

施米德休伯:我们喜欢我们的压缩网格搜索,它超越了单纯的模式识别,发现了带有100万个突触权重的复杂神经控制器,2012年时,它成为首个使用强化学习直接从高维感官输入信息中学习控制策略的方法。

在深度学习或人工智能方面,你最新的研究兴趣是什么?

施米德休伯:我最新的研究兴趣依旧是我上世纪80年代初所确定的那些:“打造一个比我更聪明的人工智能,这样我就能退休了。”要实现这一目标,我们需要的不仅仅是普通的深度学习。

它要求用到自我指涉的通用学习算法,这些算法不仅可以提升一个特定领域中某一系统的表现,还能改进它们学习的方式,以及如何自学的方式,等等,而这些仅仅受限于可计算性方面的基本限制。自从我在1987年发表了关于这个主题的毕业论文之后,我就一直在研究这个包罗万象的领域。不过现在我看到,它开始从空想变为现实。

作为一家深度学习初创公司,NNAISENSE去年一成立就受到了关注。作为这家公司的总裁,能和我们再多聊聊NNAISENSE吗?你为它制定了什么样的计划?

施米德休伯:NNAISENSE的发音类似于“nascence”(起源),因为它主要研究通用神经网络人工智能(NNAI),这是一种全新的事物。公司有五位联合创始人,数名员工,还有一支非常强大的科研团队。

我们的收入源于面向工业和金融业持续不断地推出最先进的应用,我们也在与投资者商谈。我们相信我们可以取得重大突破,这种突破将改变一切,进而实现我在上世纪80年代确定的理想:“打造一个比我更聪明的人工智能,这样我就能退休了。”

在不久的将来,人工智能领域会有何发展?新的杀手级应用会出现在哪些领域?会遇到瓶颈吗?

施米德休伯:我在Reddit的一场AMA问答活动中指出,哪怕是现有的机器学习和神经网络算法(有了一点点延展),它们也能在多个领域取得诸多重要进展,而这些成绩是人类无法企及的,其中既有医疗诊断领域,也包括更加智能的手机——它可以更好地理解你,为你解决更多问题,让你对它愈加上瘾。

我想,我们正在见证这个领域爆炸式发展的点火阶段。不过,我们如何在一场爆炸的内部去预测其混乱的细节呢?假设计算能力越来越便宜,比如每单位成本每十年降低100倍;那么到2036年时,相同价钱所能购买的计算能力,其速度将比今天快10,000倍。

这听起来多少有点像是一款小型的便携式设备也能拥有相当于人脑的计算能力;或者是一款更大的计算机中能够容纳相当于整个城市人类大脑的计算能力。

鉴于如此强大的计算能力,我预计,运行在专有硬件上的巨大递归神经网络将能同时感知和分析多个来源的多模态数据流(语音、文本、视频及其他多种模态),学会把所有输入信息联系在一起,并利用提取出的信息实现各种商业和非商业目标。

基于已经学到的东西,那些递归神经网络将持续和快速地学习新的技能。这应该能催生出无数的应用,尽管我甚至无法确定,那时候“应用”这个词是否还有意义。

那么,下一步是什么?

施米德休伯:和小孩子乃至一些小动物的智力相比,我们如今最好的自我学习机器人仍然望尘莫及。

但我认为,用不了多少年,我们将能够建造一个基于神经网络的人工智能(即NNAI),它可以通过增量式学习变得和小动物一样聪明,并通过一种极其通用的方式,学会如何规划、推理以及如何把一系列问题分解成可以快速解决(或已得到解决)的子问题。通过我们的“乐趣理论”,它甚至可能拥有好奇心和创造力,打造出无监督式的人工科学家。

一旦我们拥有了动物水平的人工智能,会发生什么?

施米德休伯:那我们实现人类水平的人工智能,难度可能就没有那么大了:地球花了数十亿年才进化出有智力的动物,但在此基础上进化出人类仅用了数百万年。技术进化的速度远远超过生物进化。

也就是说,一旦我们实现了动物水平的人工智能,数年或者数十年后,我们将可能实现人类水平的人工智能。届时,各种应用将真正毫无限制,所有企业都将改变,所有文明都将改变,所有的一切都将发生变化。

那在长远的未来,人工智能会是什么样呢?

施米德休伯:超级智慧的人工智能也许很快会殖民太阳系,并在数百万年内,殖民整个银河系。宇宙会迈出下一步,通往愈加深不可测的复杂性。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-07-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

英伟达CEO黄仁勋专访 | All IN深度学习自动驾驶,打响芯片热战

【新智元导读】英伟达2016年Q2财报大好,股价创历史新高,从CEO黄仁勋投资人会议发言可以看出,英伟达接下来有向数据中心和自动驾驶发力的迹象,这两者核心还是深...

38690
来自专栏企鹅号快讯

今日头条李磊:机器写作与 AI 辅助创作

近日,第七届吴文俊人工智能科学技术奖颁奖盛典在苏州举行。今日头条与北京大学共同完成的「互联网信息摘要与机器写稿关键技术及应用」项目荣获吴文俊人工智能技术发明奖。...

476100
来自专栏新智元

深度学习教父Hinton专访,AI已跨越重要分水岭

【新智元导读】《福布斯》昨日刊登Geoff Hinton专访。游走在学术和产业的AI大神Hinton谈到了自己研究兴趣的起源、在多伦多大学和谷歌所做的研究工作以...

34360
来自专栏深度学习自然语言处理

资料 |《深度学习500问》,川大优秀毕业生的诚意之作

今天,给大家推荐一本还未完成的深度学习书籍——《深度学习500问》。为什么要推荐一本未完成的书?

12020
来自专栏算法+

来源自rnnoise,但非rnn

https://files.cnblogs.com/files/cpuimage/denoise.zip

24030
来自专栏IT派

机器学习本质-周志华

什么是机器学习? 文献筛选”的故事:循证医学 我们都知道,现在优质医学资源非常稀缺,为了缓解这个问题,国外产生了一种叫做“循证医学”的做法。以后患病了不是先去找...

372110
来自专栏人工智能快报

人工智能可预测阿茨海默症病情演变

初创公司利用无监督学习方法开发出预测阿茨海默症进展的系统,可扩展到其他退行性疾病预测,助力精准医学。

13330
来自专栏机器之心

业界 | 拿下吴文俊奖,今日头条李磊谈AI如何实现内容创作

38980
来自专栏人工智能头条

李理:从Image Caption Generation理解深度学习(part I)

32540
来自专栏新智元

【十大顶级专家】全球人工智能技术趋势(诺奖得主、KK等)

2015 年发生了机器学习的大事件?这背后折射出什么技术趋势?Edge 从全球 198 个顶尖专家中梳理了科技和技术大事件,新智元从中选择了关于人工智能的部分。...

32340

扫码关注云+社区

领取腾讯云代金券