Yoshua Bengio关于深度学习结构的综述

哒呵呵

发布于 2018-08-06 17:14:16

3620

发布于 2018-08-06 17:14:16

文章被收录于专栏：鸿的学习笔记

1.How do We Train DeepArchitectures?

深度学习方法旨在学习特征层次，其具有由较低层特征的组合形成的较高层级的特征。在多个抽象级别自动学习特征允许系统去学习将输入直接从数据映射到输出的复杂函数，而不完全依赖于人工制造的特征。这对于更高级别的抽象特别重要，人们通常不知道如何根据原始的隐性输入变得明确。自动学习的能力将随着机器学习方法的数据量和应用范围的持续增长而变得越来越强大。

结构的深度是指所学习的函数中的非线性运算的组成的数量。虽然大多数当前的学习算法对应于浅架构（1,2或3级），哺乳动物大脑被组织在深层架构中，其中给定的输入感知在多个抽象级别表示，每个级别对应于不同的皮层。人类通常以分层方式描述这样的概念，这具有多级抽象。大脑也似乎通过多个阶段的转化和表示来处理信息。这在灵长类动物视觉系统中是特别清楚的，其具有其处理阶段的序列：边缘检测，原始形状，以及逐渐复杂的视觉形状。

神经网络研究人员受大脑结构深度的启发，花费了几十年来训练深层神经网络，但没有次成功的尝试是在2006年之前报告：研究人员报告的积极实验结果通常是两个或三个层次（即一个或两个隐藏层），但训练更深的网络始终会产生较差的结果。可以被认为是突破的事情发生在2006年：Hinton在多伦多大学介绍了深度信念网络（DBNs），一个贪婪学习算法，利用一个无监督学习算法的每一层，一个限制玻尔兹曼机（RBM）。不久之后，提出了基于自动编码器的相关算法，显然利用相同的原理：使用无监督学习指导中间级表示的训练，这可以在每个级别在本地执行。最近提出了深度架构的其他算法，既不利用RBM也不利用自动编码器而利用相同的原理。

自2006年以来，深层网络不仅在分类任务中成功应用，而且在回归，降维，建模纹理，建模运动，对象分割，信息检索，机器人，自然语言处理和协作过滤获得应用。虽然自动编码器，RBM和DBN可以用未标记的数据进行训练，但在许多上述应用中，它们已经成功地用于初始化特定任务的深度监督前馈神经网络。

2.Intermediate Representations:Sharing Features and Abstractions Across Tasks

由于深层架构可以被看作是一系列处理阶段的组成，深层架构所提出的直接问题是：每个阶段的输出（即另一层的输入）下面是什么表示？这些阶段之间应该有什么类型的接口？深度架构的最新研究的一个标志是对这些中间表示的关注：深度架构的成功属于RBMs ，普通自动编码器，稀疏自动编码器或去噪自动编码器。这些算法可以被视为学习将一个表示（前一阶段的输出）转换成另一个表示，在每个步骤可能更好地解决数据下面的变化的因素。这已经一次又一次地观察到，一旦在每个级别找到良好的表示，其可以用于通过监督的基于梯度的优化来初始化和成功训练深层神经网络。

在大脑中发现的每个抽象级别包括大量特征的小子集的“激活”（神经激励），这些特征通常不是相互排斥的。因为这些特征不是相互排斥的，所以它们形成所谓的分布式表示：信息不局限在特定的神经元中，而是分布在所有的神经元中。除了分布之外，似乎大脑使用稀疏的表示：只有大约14 ％的神经元在给定时间一起是活动的。一些灵感来自大脑中稀疏表示的观察，已被用于构建具有稀疏表示的深层架构。

密集分布的表示是频谱的一个极端，而稀疏表示在该频谱的中间，纯粹的局部表示是另一个极端。表示的局部性与局部泛化的概念密切相关。许多现有的机器学习方法在输入空间中是局部的：为了获得不同地在数据空间的不同区域中行为的学习函数，它们需要这些区域之间的可变参数。即使统计效率不是必要的，但是在可变参数的数量很大的情况下，只有在添加某种形式的先验（例如参数的优先级值更高）时，才能获得良好的泛化。当前者不是任务特定的时，通常是强制解决方案非常平滑。与基于局部泛化的学习方法相反，可以使用分布式表示来区分的模式的总数可能与表示的维度（即学习特征的数量）成指数地缩放。

在许多机器视觉系统中，学习算法已经限制了这种处理链的特定部分。其余的设计仍然是劳动密集型的（labor-intensive），而这可能限制这种系统的规模。另一方面，我们认为智能机器的一个标志囊括一个足够大的概念。仅仅识别MAN是不够的。我们需要能够处理大量这样的任务和概念的算法。手动定义许多任务似乎是令人生畏的，在这种情况下学习变得至关重要。此外，不利用这些任务之间以及它们所要求的概念之间的共同点，似乎有点愚蠢。这是多任务学习研究的重点。具有多个级别的体系结构自然地提供组件的这种共享和重用：对于检测MAN而言，低级视觉特征（如边缘检测器）和中间级视觉特征（如对象部分）对于大型组的其他视觉任务也是有用的。深度学习算法基于可以跨任务共享的中间表示。因此，他们可以利用来自类似任务的无监督数据来提高大型和具有挑战性的问题的性能，这些问题通常会导致标签数据的贫乏。事实上，许多这些学习的特征在m个任务之间共享，提供了与m成比例的统计强度的共享。现在考虑这些学习的高级特征本身可以通过来自公共池的较低级中间特征的组合来表示。并且可以以类似的方式获得统计强度，并且该策略可以用于深层架构的每一级。

此外，学习一大组互关联的概念可能会为实现人类那种广义泛化提供一个关键想法，例如我们不会从单独训练的对象检测器，即每个视觉类别检测器获得期望。如果每个高级类别本身通过来自公共池的抽象特征的特定分布式配置来表示，则泛化到未见类别可以自然地从这些特征的新配置开始。即使这些特征的一些配置将出现在训练样本中，如果它们表示数据的不同方面，新的样本可以有意义地由这些特征的新配置表示。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-01-10，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自鸿的学习笔记微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

Yoshua Bengio关于深度学习结构的综述

Yoshua Bengio关于深度学习结构的综述

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐