Yoshua Bengio关于深度学习结构的综述

1.How do We Train DeepArchitectures?

深度学习方法旨在学习特征层次,其具有由较低层特征的组合形成的较高层级的特征。在多个抽象级别自动学习特征允许系统去学习将输入直接从数据映射到输出的复杂函数,而不完全依赖于人工制造的特征。这对于更高级别的抽象特别重要,人们通常不知道如何根据原始的隐性输入变得明确。自动学习的能力将随着机器学习方法的数据量和应用范围的持续增长而变得越来越强大。

结构的深度是指所学习的函数中的非线性运算的组成的数量。虽然大多数当前的学习算法对应于浅架构(1,2或3级),哺乳动物大脑被组织在深层架构中,其中给定的输入感知在多个抽象级别表示,每个级别对应于不同的皮层。人类通常以分层方式描述这样的概念,这具有多级抽象。大脑也似乎通过多个阶段的转化和表示来处理信息。这在灵长类动物视觉系统中是特别清楚的,其具有其处理阶段的序列:边缘检测,原始形状,以及逐渐复杂的视觉形状。

神经网络研究人员受大脑结构深度的启发,花费了几十年来训练深层神经网络,但没有次成功的尝试是在2006年之前报告:研究人员报告的积极实验结果通常是两个或三个层次(即一个或两个隐藏层),但训练更深的网络始终会产生较差的结果。可以被认为是突破的事情发生在2006年:Hinton在多伦多大学介绍了深度信念网络(DBNs),一个贪婪学习算法,利用一个无监督学习算法的每一层,一个限制玻尔兹曼机(RBM)。不久之后,提出了基于自动编码器的相关算法,显然利用相同的原理:使用无监督学习指导中间级表示的训练,这可以在每个级别在本地执行。最近提出了深度架构的其他算法,既不利用RBM也不利用自动编码器而利用相同的原理。

自2006年以来,深层网络不仅在分类任务中成功应用,而且在回归,降维,建模纹理,建模运动,对象分割,信息检索,机器人,自然语言处理和协作过滤获得应用。虽然自动编码器,RBM和DBN可以用未标记的数据进行训练,但在许多上述应用中,它们已经成功地用于初始化特定任务的深度监督前馈神经网络。

2.Intermediate Representations:Sharing Features and Abstractions Across Tasks

由于深层架构可以被看作是一系列处理阶段的组成,深层架构所提出的直接问题是:每个阶段的输出(即另一层的输入)下面是什么表示?这些阶段之间应该有什么类型的接口?深度架构的最新研究的一个标志是对这些中间表示的关注:深度架构的成功属于RBMs ,普通自动编码器,稀疏自动编码器或去噪自动编码器。这些算法可以被视为学习将一个表示(前一阶段的输出)转换成另一个表示,在每个步骤可能更好地解决数据下面的变化的因素。这已经一次又一次地观察到,一旦在每个级别找到良好的表示,其可以用于通过监督的基于梯度的优化来初始化和成功训练深层神经网络。

在大脑中发现的每个抽象级别包括大量特征的小子集的“激活”(神经激励),这些特征通常不是相互排斥的。因为这些特征不是相互排斥的,所以它们形成所谓的分布式表示:信息不局限在特定的神经元中,而是分布在所有的神经元中。除了分布之外,似乎大脑使用稀疏的表示:只有大约14 %的神经元在给定时间一起是活动的。一些灵感来自大脑中稀疏表示的观察,已被用于构建具有稀疏表示的深层架构。

密集分布的表示是频谱的一个极端,而稀疏表示在该频谱的中间,纯粹的局部表示是另一个极端。表示的局部性与局部泛化的概念密切相关。许多现有的机器学习方法在输入空间中是局部的:为了获得不同地在数据空间的不同区域中行为的学习函数,它们需要这些区域之间的可变参数。即使统计效率不是必要的,但是在可变参数的数量很大的情况下,只有在添加某种形式的先验(例如参数的优先级值更高)时,才能获得良好的泛化。当前者不是任务特定的时,通常是强制解决方案非常平滑。与基于局部泛化的学习方法相反,可以使用分布式表示来区分的模式的总数可能与表示的维度(即学习特征的数量)成指数地缩放。

在许多机器视觉系统中,学习算法已经限制了这种处理链的特定部分。其余的设计仍然是劳动密集型的(labor-intensive),而这可能限制这种系统的规模。另一方面,我们认为智能机器的一个标志囊括一个足够大的概念。仅仅识别MAN是不够的。我们需要能够处理大量这样的任务和概念的算法。手动定义许多任务似乎是令人生畏的,在这种情况下学习变得至关重要。此外,不利用这些任务之间以及它们所要求的概念之间的共同点,似乎有点愚蠢。这是多任务学习研究的重点。具有多个级别的体系结构自然地提供组件的这种共享和重用:对于检测MAN而言,低级视觉特征(如边缘检测器)和中间级视觉特征(如对象部分)对于大型组的其他视觉任务也是有用的。深度学习算法基于可以跨任务共享的中间表示。因此,他们可以利用来自类似任务的无监督数据来提高大型和具有挑战性的问题的性能,这些问题通常会导致标签数据的贫乏。事实上,许多这些学习的特征在m个任务之间共享,提供了与m成比例的统计强度的共享。现在考虑这些学习的高级特征本身可以通过来自公共池的较低级中间特征的组合来表示。并且可以以类似的方式获得统计强度,并且该策略可以用于深层架构的每一级。

此外,学习一大组互关联的概念可能会为实现人类那种广义泛化提供一个关键想法,例如我们不会从单独训练的对象检测器,即每个视觉类别检测器获得期望。如果每个高级类别本身通过来自公共池的抽象特征的特定分布式配置来表示,则泛化到未见类别可以自然地从这些特征的新配置开始。即使这些特征的一些配置将出现在训练样本中,如果它们表示数据的不同方面,新的样本可以有意义地由这些特征的新配置表示。

原文发布于微信公众号 - 鸿的学习笔记(shujuxuexizhilu)

原文发表时间:2017-01-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

谷歌大脑:使用强化学习,从头生成神经网络架构(论文)

【新智元导读】深度学习的成功,使业内范式开始从特征设计转向架构设计。Google Brain 研究人员使用强化学习,从头开始生成神经网络架构。【论文地址:htt...

4186
来自专栏新智元

南开大学提出新物体分割评价指标,相比经典指标错误率降低 69.23%

---- 新智元专栏 作者:范登平(南开大学) 【新智元导读】南开大学媒体计算实验室等研究团队从人类视觉系统对场景结构非常敏感的角度出发,提出一种新颖、...

3268
来自专栏ATYUN订阅号

深度进化网络结构表示:利用进化计算自动设计人工神经网络

? 深度进化网络结构表示(DENSER)是一种利用进化计算自动设计人工神经网络(ANNs)的新方法。该算法不仅搜索最优的网络拓扑(network topolo...

3338
来自专栏数据派THU

一文助你解决90%的自然语言处理问题(附代码)

作者:Emmanuel Ameisen 来源:机器之心 本文为大家解析了人工智能领域中的自然语言如何处理。 自然语言处理(NLP)与计算机视觉(CV)一样,是...

3543
来自专栏机器学习算法与Python学习

Kaggle如何取得top 2%,这篇文章告诉你!

本文作者 Abhay Pawar 多次参加 Kaggle 竞赛,并在 Instacart Market Basket Analysis 竞赛中拿到 top 2%...

1134
来自专栏CSDN技术头条

解密最接近人脑的智能学习机器 ——深度学习及并行化实现

训练深层模型是长期以来的难题,近年来以层次化、逐层初始化为代表的一系列方法的提出给训练深层模型带来了希望,并在多个应用领域获得了成功。深层模型的并行化框架和训练...

2235
来自专栏机器之心

业界 | 如何达到Kaggle竞赛top 2%?这里有一篇特征探索经验帖

在数值数据上构建任意监督学习模型的一个重要方面是理解特征。查看模型的部分依赖图可帮助理解任意特征对模型输出的影响。

1003
来自专栏张耀琦的专栏

【机器学习入门系列】Regression 回归:案例研究

本文通过预测 Pokemon Go 的 Combat Power (CP) 值的案例介绍机器学习的回归模型,举例介绍了操作步骤,通过方程的好坏最终确定了最好的损...

1.3K1
来自专栏IT派

机器学习新手常犯的6大错误

在刚入门的时候,均方误差作为损失函数是很好的默认选择。但是当需要处理现实问题的时候,这种未经专门设计的损失函数很少能给出最优解。

1040
来自专栏机器学习算法与Python学习

干货 | 8个方法解决90%的NLP问题

1443

扫码关注云+社区