前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Open AI 研究主管:实现无监督学习的最佳路径或是聚焦模型

Open AI 研究主管:实现无监督学习的最佳路径或是聚焦模型

作者头像
新智元
发布2018-03-21 18:16:15
9720
发布2018-03-21 18:16:15
举报
文章被收录于专栏:新智元新智元

【新智元导读】师从Hinton,吴恩达的斯坦福研究小组博士后,谷歌大脑顶级研究者,加拿大史上第一位 Google Fellow,DNN Research 创始人……Ilya Sutskever 在AI研究领域可谓“根正苗红”,成绩显赫。目前,他的身份是 OpenAI 研究主管。Sutskever 在接受O'Reilly采访中表示,实现无监督学习的最佳路径可能是聚焦模型(Attention Models)。

文章来源:O'Reilly 报告《The Future of Machine Intelligence)

作者:David Beyer

题目:Unsupervised Learning,Attention and Mysteries

要 点

既然人类可以快速解决感知问题——尽管人类的神经元速度相对较慢,那么适当深度和大小的神经网络也能让机器以类似的方式取得成功。

无监督学习仍然是个谜,但对那个领域的完全理解可能会从根本上改变机器学习领域的面貌。

聚焦模型(Attention models)代表了一个有前景的方向,强大的学习算法不需要太多数据就能解决更难的问题。

“模型不行,再厉害的算法也是枉然”

【0'Reilly】让我们从你的背景开始。你对机器学习的兴趣有过什么样的演变,以及你是如何选择你的博士学位方向的?

【Ilya】我开始读博的时候,刚好是在深度学习火起来之前。我那时候在做几个不同的项目,多数都集中在神经网络。我对这个领域的理解是在与 James Martens 合作研究 Hessian-free 优化器 (optimizer) 期间成形的。在那个时候,贪婪式逐层训练算法(greedy layer-wise training )(每次训练一层) 极其流行。在Hessian-free 优化器方面的工作帮助我理解了这个事实,那就是如果你用大量数据训练很大很深的神经网络,你几乎肯定会取得成功

退一步讲,当解决机器学习中自然出现的问题时,你会使用某种模型。基本的问题是,你是否相信这个模型在采用某些参数设置时可以解决你的问题?如果答案是否定的,那么用这个模型不会得到好的结果,采用再厉害的学习算法也是枉然。如果答案是肯定的,那么要做的不过是获取数据并训练。在某种意义上这也是最主要的问题。模型在寻找问题的答案时是否有代表性?

大而深的神经网络应该能代表感知问题的极好的解,对此有极有说服力的论点。论点是这样的:人类的神经元速度是很慢的,但人类可以又快又准地解决感知问题。如果人类能在不到一秒的时间内有效地解决问题,那么要解决例如视觉和语音识别此类的问题,你只需要很少的大规模并行的步骤。这是一个老的论点——我看过一篇八十年代早期的文章讲这个。

这提醒我们,如果针对视觉这类问题训练一个大而深的、10 到 15 层的神经网络模型,那我们是可以解决这个问题的。受这个信念的激励,我与 Alex Krizhevsky 一起工作,试图证明这个想法。Alex 曾在 GPU 上实现过速度极快的二维卷积,那时候极少人知道怎么为 GPU 编程。我们能训练比之前都大的神经网络并获得比当时其他人都好的结果。

如今,人人都知道,如果你想解决一个问题,你只需要获取大量数据并训练一个大的神经网络。你可能不会获得完美的解,但是你得到的必定比你不用深度学习获得的可能答案要好很多。

【0'Reilly】 我这么问没有过分简化你的意思,你是不是说,只要把大量数据输入给一个高度并行系统,你差不多就能找到你需要的?

【Ilya】是的,不过:尽管这个系统是高度并行的,但是,是它的序列特性在发挥作用。确实,我们使用了并行系统,因为这是唯一能让模型速度变快且规模变大的方法。但如果你想想深度代表什么——深度就是序列性的那部分

并且如果你看看我们的网络,你会发现每年都在变深。对我来说这很奇特:那些很模糊、基于直觉的论据,竟然真的对应到真实发生的事情。每年在视觉领域表现最好的网络都比过去深。现在我们有 25 个分层计算步骤,或者更多,这取决于你怎么计数。

【0'Reilly】从理论上看,有哪些开放问题能让深度学习进一步成功?

【Ilya】一个关键的开放问题是,怎样用更少的数据做更多的事情。如何让这个方法对数据没那么饥渴?如何输入同样多的数据,但把数据组织得更好?

这个问题与机器学习中的另一个大的开放问题紧密相关——无监督学习。你究竟要如何去思考无监督学习?如何从中获益?当我们的理解提升,当无监督学习往前进,这会是我们获得新想法的地方,并且会看到完全不可想像的新应用的爆发。

Ilya Sutskever

目前,无监督学习依然是个谜

【0'Reilly】当前我们对无监督学习的理解是什么样的?在你看来有什么局限?

【Ilya】无监督学习是个谜。可以跟监督学习比较一下。我们知道为何监督学习能工作。你有大的模型,你使用大量数据来定义成本——训练误差——这是你要最小化的东西。如果你有许多数据,你的训练误差将会接近测试误差。最终,你得到小的测试误差,这是你一开始就想要的。

但是,对于无监督学习,我甚至不能描述我们想从它得到什么。你想要某种东西;你希望模型能够理解...不管“能够理解”是什么意思。尽管我们目前对无监督学习知之甚少,我还是相信正确的解释就在我们眼皮子底下。

【0'Reilly】 你是否知道有没有什么有前途的方法,能让我们得到关于无监督学习的更深的、概念性的理解?

【Ilya】:许多人在尝试不同的想法,多数与密度建模(density modeling) 和生成模型有关。如果你问任何一个实践者如何解决一个特定的问题,他们会告诉你,先拿到数据,然后用监督学习。到目前还没有无监督学习带来巨大改变的重要应用。

【0'Reilly】 我们是否知道 (对于无监督学习而言) 成功的意思是什么?有没有哪些即便很粗糙的方法来评价无监督学习模型的性能?

【Ilya】无监督学习从来都是实现别的目标的一个途径。在监督学习中,学习本身是你在意的。你有个成本函数,需要被最小化。在无监督学习中,目标从来都是为了帮助其它任务,比如分类。举个例子,我可能让电脑去被动观看许多 YouTube 视频 (无监督学习发生在这里),然后让它以高精度识别出物体 (这是监督学习的最终任务)。

成功的无监督学习让接下来的监督学习算法以高精度识别物体,而这样的精度在不使用无监督学习的情况下是不可能的。这种关于成功的观念是可测量、非常具体的。但我们还达不到这个目标。

深度如何再进一步?聚焦模型

【0'Reilly】你还在哪些领域看到了令人激动的进展?

【Ilya】我相信一个极端重要的方向是,能进行更多序列运算的模型。我提到我认为深度学习之所以成功是因为它比之前的 (浅层) 模型能做更多的序列运算。所以,能做更多序列运算的模型应该会更加成功,因为它们能表达更精巧的算法。就好比让并行计算机运行更多步骤。我们已经看到了这个方向的开端,形式就是聚焦模型 (attention models)

【0'Reilly】聚焦模型与当前的方法有哪些不同?

【Ilya】在目前的方法中,你把你的输入矢量传给神经网络。神经网络运行它,经过一些阶段的处理,然后输出。在聚焦模型里,你也有个神经网络,但你让这个网络运行得久得多。在这个神经网络里有个机制,决定要“看”输入的哪一部分。正常情况,如果输入很大,你需要大的神经网络来处理。但如果你有聚焦模型,神经网络的最佳大小可以独立于输入的大小决定。

【0'Reilly】那在这种聚焦网络中,如何决定关注哪里?

【Ilya】假设你有一个句子,或者说一个序列,比如,100 个单词吧。聚焦模型会对输入句子发出一个请求,并对输入的单词构造一个分布,使得与请求相似的单词拥有较高概率,与请求不太相似的拥有较低概率。然后你对它们进行加权求和。由于每一步都是可微的,我们可以通过反向传播算法 (backpropagation) 训练聚焦模型应该关注哪里,这是发展这种模型的动机以及它成功的原因。

【0'Reilly】需要你自己对框架做哪些改动?为了引进聚焦这个观念,需要什么样的新代码?

【Ilya】聚焦模型——至少可微聚焦模型——的一个好处就是,你不需要往框架加入任何新代码。只要你的框架支持矩阵或矢量逐个元素的乘法和指数运算,那就够了。

那么,聚焦模型解决了你之前提出一个问题:我们如何只用更少的数据而能更好地发挥现有的能力?

【Ilya】差不多吧。我们有许多理由对聚焦模型感到兴奋。一个是,聚焦模型就是好用,让我们用更少数据得到更好结果。还要记住,人类显然是有聚焦的。这是种让我们获得结果的东西。这不止是个学术概念。如果你想象一种真正聪明的系统,那它肯定也是有聚焦的。

【0'Reilly】 围绕聚焦模型有那些主要问题?

【Ilya】可微分的聚焦模型在计算上是昂贵的,因为它要求在模型运作的每个步骤都需要能获取整个输入。如果输入只是个,比如说,100 个单词的句子,那还好,但如果输入是个包含一万个单词的文档,那就不太现实了。所以一个主要的问题是速度。聚焦模型应该是快的,但可微聚焦模型不快。对聚焦的强化学习有可能会快些,但针对数千个对象用强化学习来训练聚焦控制不是简单的事。

研究大脑是有价值的,如果足够小心和负责

【0'Reilly】就我们目前所知,大脑里是否有可以与无监督学习类比的地方?

【Ilya】如果视角正确,大脑是灵感的绝佳源泉。关于大脑是否进行无监督学习的问题,在某种意义上,取决于你认为什么是无监督学习。在我看来,答案毫无疑问是肯定的。看看人们的行为,人们并没有使用监督学习。人类从来不使用任何一种监督。你开始看一本书,你可以理解它,然后你突然能做过去没能力做的事情。考虑一个小孩,坐在课堂里。这个学生并没有被给予许多输入和输出例子。只有很间接的监督,所以必定有许多无监督学习在进行。

【0'Reilly】你的工作从人脑及其能力获得灵感。神经科学对大脑的理解在多大程度上延伸到机器学习的理论和应用?

【Ilya】对大脑的关注很有价值,但也要小心,并且抽象的程度要恰当。比如,我们的神经网络有互相连接的单元,而使用低速的互相连接的处理器的想法是直接受到大脑的启发。但这是个没用的类比。

神经网络的设计是要在软件实现上能够高效计算,而不是为了在生物学意义上像那么回事。但整体想法是受到大脑的启发,并且很成功。比如,卷积神经网络体现了我们对于视觉皮层的理解,它拥有非常局部化的感知区域。这是关于大脑已知的东西,而这个信息被成功地移植到我们的模型里。总之,我认为研究大脑是有价值的,如果足够小心和负责。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-05-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档