前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >什么是深度学习?

什么是深度学习?

作者头像
anthlu
发布2018-02-08 10:57:11
9890
发布2018-02-08 10:57:11
举报
文章被收录于专栏:AI

深度学习是机器学习的一个子领域,涉及被称为人工神经网络的大脑的结构和功能所启发的算法。

如果刚刚开始进入深度学习领域,或者刚刚有一些神经网络方面的经验,您可能会感到困惑。我知道最初我也很困惑,在20世纪90年代和21世纪初学习和使用神经网络的许多同事和朋友也是如此。

这个领域的领导者和专家对什么是深度学习有着深刻的理解,这些具体细致的观点为深度学习提供了大量的信息。

在这篇文章中,您将通过听取该领域的专家和领导者的意见,深入了解深度学习。

让我们开始吧。

什么是深度学习?照片来自Kiran Foster,保留一些权利。
什么是深度学习?照片来自Kiran Foster,保留一些权利。

深度学习是大型神经网络

来自Coursera和百度研究院首席科学家的Andrew Ng正式成立Google Brain,最终在大量的Google服务中实现了深度学习技术的产品化。

他讲述和撰写了很多关于深度学习的内容,并且这些是一个开始的好地方。

在早期的深度学习演讲中,Andrew在传统的人工神经网络的背景下描述了深度学习。在2013年的题为”深度学习,自学习和无监督特征学习“的演讲中他将深度学习的概念描述为:

使用大脑模拟,希望: - 使学习算法更好且更易于使用。 - 在机器学习和AI方面取得革命性的进步。 我相信这是我们向真实AI进展的最佳拍档

后来他的评论变得更加细致。

Andrew认为深度学习的核心是,我们现在有足够快的计算机和足够的数据来实际训练大型神经网络。在ExtractConf 2015上讨论为什么现在是深度学习开始兴起的题为”数据科学家应该了解深度学习“的演讲时,他评论道:

我们现在可以拥有的非常大的神经网络,以及我们可以访问的大量数据

他还谈到了关于规模的重要一点。当我们构建更大的神经网络并用越来越多的数据训练它们时,它们的性能不断提高。这与在性能方面达到稳定水平的其他机器学习技术通常是不同的。

对于大多数老一代学习算法的风味......性能达到平稳状态。...深度学习...第一类算法...是可扩展的。...随着您向他们提供更多数据,性能会越来越好

他在幻灯片中提供了一个很好的漫画:

为什么是深度学习  幻灯片来自Andrew Ng,保留所有权利。
为什么是深度学习 幻灯片来自Andrew Ng,保留所有权利。

最后,他清楚地指出,我们在实践中看到的深度学习的好处来自于监督学习。从2015年ExtractConf谈话中,他评论道:

深度学习的今天几乎所有的价值都是通过有监督的学习或者从有标签的数据中学习的

早些时候,2014年在斯坦福大学题为”深度学习“的演讲中,他提出了类似的评论:

深度学习如此疯狂的原因之一是因为它在监督式学习方面非常出色

Andrew经常提到,我们应该并且将会看到更多的好处来自无监督的一面,因为领域已经成熟可以来处理大量的无标签数据可用。

Jeff Dean是Google系统与基础设施部门的行家同时也是Google高级研究员,并且参与并可能部分负责Google内部深度学习的扩展和采用。Jeff参与了Google Brain项目,并开发了大规模的深度学习软件DistBelief和后来的TensorFlow。

在2016年的一个题为”构建智能计算机系统的深度学习“的演讲中,他以类似的观点发表了一个评论:深度学习实际上是关于大型神经网络的。

当你听到“深度学习”这个词时,只要想想一个大的深层神经网络。“深”一般指的是层数,所以这种流行的术语在报刊上被采用。我认为它们通常是深度神经网络。

他已经多次发表了这个演讲,并且在同一个演讲的一组幻灯片中,他强调了神经网络的可扩展性,表明结果随着更多的数据和更大的模型而变得更好,这又需要更多的计算来训练。

随着更多的数据,更大的模型,更多的计算得到更好的结果 幻灯片来自Jeff Dean,并保留所有权利。
随着更多的数据,更大的模型,更多的计算得到更好的结果 幻灯片来自Jeff Dean,并保留所有权利。

深度学习是分层特征学习

除了可伸缩性之外,深度学习模型的另一个经常被引用的好处是它们能够从原始数据执行自动特征提取(也称为特征学习)。

Yoshua Bengio是深度学习的另一个领导者,尽管他们已经开始对大型神经网络能够实现的自动特征学习非常感兴趣。

他描述了深度学习的算法能力,发现和学习使用特征学习的良好表征。他在2012年发表的题为“无监督和迁移学习的深度学习的表现”的论文中评论道:

深度学习算法试图利用输入分布中的未知结构,以便通常在多个层次上发现好的表示,具有在较低层特征方面定义的更高级学习特征

他在2009年的题为”学习人工智能的深度架构“的技术报告中详细阐述了深入学习的观点,他强调了在特征学习中层次结构的重要性。

深度学习方法的目标是通过低层次特征构成的高层次特征来学习特征层次结构。在多个抽象层次上自动学习特征可以使系统学习将输入直接映射到输出的复杂功能,而不必完全依赖人工制作的特征。

在即将出版的Ian Goodfellow和Aaron Courville共同撰写的”深度学习“的书中,他们根据模型的深度来定义深度学习。

概念的层次结构使计算机能够通过构建简单的概念来学习复杂的概念。如果我们绘制一个图表来展示这些概念是如何建立在一起的,那么这个图形就很深,有很多层次。为此,我们把这种方法称为AI深度学习。

这是一本重要的书,很可能会成为这个领域的决定性资源。这本书继续将多层感知器描述为深度学习领域的一种算法,给出了深度学习包含人工神经网络的思想。

深度学习模型的典型例子是前馈深度网络或多层感知器(MLP)。

Peter Norvig是Google的研究主管,他的人工智能教育课程“人工智能:现代方法” 而闻名。

他在2016年发表的一篇题​​为”深度学习与可理解性与软件工程与验证“的演讲中,以与Yoshua非常类似的方式定义了深度学习,重点在于使用更深层网络结构所允许的抽象能力。

一种学习,你所形成的表达有几个抽象层次,而不是直接输出到输出

为什么称之为“深度学习”? 为什么不只是“人工神经网络”?

Geoffrey Hinton是人工神经网络领域的先驱,并联合发表了关于训练多层感知器网络的反向传播算法的第一篇论文。

他可能已经开始引入“” 的措辞来描述大型人工神经网络的发展。

他在2006年合著了一篇题为“深度置信网络的快速学习算法”的论文,其中描述了一种训练受限玻尔兹曼机“深层”(如在许多分层网络中)的方法。

使用互补的先验,我们推导出一种快速,贪婪的算法,可以一次一层地学习深层的定向置信网络,前两层构成无向联想记忆。

本文和Geoff合著的相关论文在无向深层网络上共同撰写了题为“深度玻尔兹曼机器”的论文,被社区广泛接受(现引用数百次),因为它们是网络贪婪分层训练的成功例子,前馈网络中有更多的图层。

在科学杂志上一篇名为“用神经网络减少数据维数”的合著的文章中,他们坚持使用与“深层”相同的描述来描述他们开发的网络比以前更多的层次。

我们描述了一个初始化权重的有效方法,允许深度自动编码器网络学习低维代码,它作为降低数据维度的工具比主组件分析要好得多。

在同一篇文章中,他们发表了一个有趣的评论,这个评论与Andrew Ng关于计算能力的最近增加和大规模数据集访问的评论相结合,这些数据集释放了大规模使用时神经网络的未开发能力。

自20世纪80年代以来,通过深度自动编码器的反向传播对非线性降维非常有效,前提是计算机速度足够快,数据集足够大,初始权重足够接近,可以很好地解决问题。现在满足所有三个条件。

Geoff在2016年的“皇家学会”上发表的一篇题为”深度学习“的演讲中评论说,“深度置信网络”是2006年深度学习的开始,这新的一波深度学习的第一次成功应用是2009年的”使用深度置信网络进行声学建模“,已经实现了最先进的成果。

正是这些结果使得语音识别和神经网络社区受到关注,使用“深层”作为以前的神经网络技术的差异化,可能导致名称的改变。

在皇家学会的演讲中关于深度学习的描述是完全反向传播的,正如你期望的那样。有趣的是,他提出了四个原因为什么上个世纪90年代反向传播(“深度学习”)并没有兴起。前两点与Andrew Ng的评论相符,数据集太小,电脑太慢。

1986年反向传播实际上错在什么地方? 幻灯片来自Geoff Hinton,保留所有权利。
1986年反向传播实际上错在什么地方? 幻灯片来自Geoff Hinton,保留所有权利。

深度学习作为跨领域的可扩展学习

深度学习在输入(甚至输出)都是模拟的问题领域胜出。这意味着,它们不是表格格式的少量,而是像素数据的图像,文本数据的文档或音频数据的文件。

Yann LeCun是Facebook Research的总监,而且是网络架构之父,擅长于卷积神经网络(CNN)的图像数据中的对象识别。这种技术看起来很成功,因为像多层感知器前馈神经网络一样,该技术可以随着数据和模型大小而变化,并且可以用反向传播来训练。

这使他将深度学习的定义视为非常大的CNN的发展,在照片中的对象识别方面取得了巨大的成功。

2016年在Lawrence Livermore国家实验室的演讲的一篇题为”加速理解:深度学习,智能应用与GPU“,他描述的深度学习,一般称为学习分层表示,并将其定义为构建对象识别系统的可扩展方法:

深度学习是...一个模块管道,所有这些都是可训练的。...深 因为在识别对象的过程中有多个阶段,所有这些阶段都是训练的一部分“

深度学习=学习分层表示 幻灯片来自Yann LeCun,保留所有权利。
深度学习=学习分层表示 幻灯片来自Yann LeCun,保留所有权利。

Jurgen Schmidhuber是另一种流行的算法之父,像MLP和CNN一样也与模型的大小和数据集大小缩放,可与反向传播进行训练,而是针对学习序列数据,被称为长短期记忆网络(LSTM),是一种循环神经网络。

我们确实在“深度学习”这个字眼上看到一些混乱。他在2014年发表的题为“神经网络上的深度学习:概述”的文章中评论了该领域有问题的命名以及从浅层学习变成深度的区别。他还有趣地描述了问题复杂性的深度,而不是用来解决问题的模型。

浅层学习到底在哪个深度结束,同时深度学习开始了?与深度学习专家的讨论尚未对这个问题作出确凿的回应。[...],我只是为了这个概述的目的而定义:深度 > 10的问题需要非常深度的学习。

Demis Hassabis是DeepMind的创始人,后来被Google收购。DeepMind将深度学习技术与强化学习结合在一起,突破了处理玩游戏等复杂的学习问题,在玩Atari游戏和Go with Alpha Go游戏中都有出众的表现。

为了与命名保持一致,他们把他们的新技术称为Deep Q-Network,将Deep Learning与Q-Learning相结合。他们还列举了更广泛的“深度强化学习”研究领域。

2015年他们在自然杂志中发表的题为“通过深入强化学习进行人体控制”的论文中评论了深层神经网络在突破中的重要作用,并强调了对层次抽象的需求。

为此,我们开发了一种能够将强化学习与一类称为深度神经网络的人工神经网络相结合的新型智能体 - 深度Q网络(DQN)。值得注意的是,深层神经网络上最近的成就,其中节点的若干层被用于建立该数据的逐步更抽象表示,有可能已经使对人工神经网络学习的概念,如直接从原始传感器数据对象的类别。

最后,Yann LeCun,Yoshua Bengio和Geoffrey Hinton在自然杂志上发表了一篇名为“深度学习”的论文。可能是该领域的一篇定义的论文,其中,他们阐述一个清晰的深度学习的定义,突出了多层次的方法。

深度学习允许由多个处理层组成的计算模型来学习具有多个抽象级别的数据表示。

后来,多层次的方法被描述为表示学习和抽象。

深度学习方法是具有多个表示层次的表示学习方法,通过组合简单但非线性的模块来获得,每个模块将一个层次上的表示(从原始输入开始)转换为更高一些的抽象层次上的表示。[...]深度学习的关键方面是这些功能层不是由人类工程师设计的:他们是通过使用通用学习程序从数据中学习的。

这是一个很好的和通用的描述,可以很容易地描述大多数人工神经网络算法。这也是一个好消息。

概要

在这篇文章中,你发现深度学习只是在更多的数据上非常大的神经网络,需要更强大的计算机。

尽管Hinton和合作者发表的早期方法侧重于贪婪分层训练和像自动编码器这样的无监督方法,但现代最先进的深度学习集中在使用反向传播算法训练深层(许多分层)的神经网络模型上。最流行的技术是:

  • 多层感知器网络。
  • 卷积神经网络。
  • 长期短期记忆递归神经网络。

我希望这已经清楚了什么是深度学习,以及如何在一个统一的框架下将这些领先的定义融合在一起。

如果您有任何关于深度学习的问题或关于此文章的问题,请在下面的评论中提出您的问题,我将尽力来回答他们。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 深度学习是大型神经网络
  • 深度学习是分层特征学习
  • 为什么称之为“深度学习”? 为什么不只是“人工神经网络”?
  • 深度学习作为跨领域的可扩展学习
  • 概要
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档