深度学习的四个部分

深度学习领域的学术研究可以包含四部分:优化(Optimization),泛化(Generalization),表达(Representation)以及应(Applications)。除了应用(Applications)之外每个部分又可以分成实践和理论两个方面。

优化(Optimization):深度学习的问题最后似乎总能变成优化问题,这个时候数值优化的方法就变得尤其重要。

从实践方面来说,现在最为推崇的方法依旧是随机梯度递减,这样一个极其简单的方法以其强悍的稳定性深受广大研究者的喜爱,而不同的人还会结合动量(momentum)、伪牛顿方法(Pseudo-Newton)以及自动步长等各种技巧。此外,深度学习模型优化过程的并行化也是一个非常热的点,近年在分布式系统的会议上相关论文也逐渐增多。

在理论方面,目前研究的比较清楚的还是凸优化(Convex Optimization),而对于非凸问题的理论还严重空缺,然而深度学习大多数有效的方法都是非凸的。现在有一些对深度学习常用模型及其目标函数的特性研究,期待能够发现非凸问题中局部最优解的相关规律。

泛化(Generalization):一个模型的泛化能力是指它在训练数据集上的误差是否能够接近所有可能测试数据误差的均值。泛化误差大致可以理解成测试数据集误差和训练数据集误差之差。在深度学习领域变流行之前,如何控制泛化误差一直是机器学习领域的主流问题。

从实践方面来说,之前许多人担心的深度神经网络泛化能力较差的问题,在现实使用中并没有表现得很明显。这一方面源于大数据时代样本巨大的数量,另一方面近年出现了一些新的在实践上比较有效的控制泛化误差(Regularization)的方法,比如Dropout和DropConnect,以及非常有效的数据扩增(Data Agumentation)技术。是否还有其它实践中会比较有效的泛化误差控制方法一直是研究者们的好奇点,比如是否可以通过博弈法避免过拟合,以及是否可以利用无标记(Unlabeled)样本来辅助泛化误差的控制。

从理论方面来说,深度学习的有效性使得PAC学习(Probably Approximately Correct Learning)相关的理论倍受质疑。这些理论无一例外地属于“上界的上界”的一个证明过程,而其本质无外乎各种集中不等式(Concentration Inequality)和复杂性度量(Complexity Measurement)的变种,因此它对深度学习模型有相当不切实际的估计。这不应该是泛函理论已经较为发达的当下出现的状况,因此下一步如何能够从理论上分析深度学习模型的泛化能力也会是一个有趣的问题。而这个研究可能还会牵涉表达(Representation,见下)的一些理论。

表达(Representation):这方面主要指的是深度学习模型和它要解决的问题之间的关系,比如给出一个设计好的深度学习模型,它适合表达什么样的问题,以及给定一个问题是否存在一个可以进行表达的深度学习模型。

这方面的实践主要是两个主流,一方面那些笃信无监督学习(Unsupervised Learning)可行性的研究者们一直在寻找更好的无监督学习目标及其评价方法,以使得机器能够自主进行表达学习变得可能。这实际上包括了受限波尔兹曼模型(Restricted Boltzmann Machine),稀疏编码(Sparse Coding)和自编码器(Auto-encoder)等。另一方面,面对实际问题的科学家们一直在凭借直觉设计深度学习模型的结构来解决这些问题。这方面出现了许多成功的例子,比如用于视觉和语音识别的卷积神经网络(Convolutional Neural Network),以及能够进行自我演绎的深度回归神经网络(Recurrent Neural Network)和会自主玩游戏的深度强化学习(Reinforcement Learning)模型。绝大多数的深度学习研究者都集中在这方面,而这些也恰恰能够带来最大的学术影响力。

然而,有关表达(Representation)的理论,除了从认知心理学和神经科学借用的一些启发之外,几乎是空白。这主要是因为是否能够存在表达的理论实际上依赖于具体的问题,而面对具体问题的时候目前唯一能做的事情就是去类比现实存在的智能体(人类)是如何解决这一问题的,并设计模型来将它归约为学习算法。我直觉上认为,终极的表达理论就像是拉普拉斯幽灵(Laplace’s Demon)一样,如果存在它便无所不知,也因此它的存在会产生矛盾,使得这一理论实际上只能无限逼近。

应用(Applications):深度学习的发展伴随着它对其它领域的革命过程。在过去的数年中,深度学习的应用能力几乎是一种“敢想就能成”的状态。这当然得益于现今各行各业丰富的数据集以及计算机计算能力的提升,同时也要归功于过去近三十年的领域经验。未来,深度学习将继续解决各种识别(Recognition)相关的问题,比如视觉(图像分类、分割,计算摄影学),语音(语音识别),自然语言(文本理解);同时,在能够演绎(Ability to Act)的方面如图像文字描述、语音合成、自动翻译、段落总结等也会逐渐出现突破,更可能协助寻找NP难(NP-Hard)问题在限定输入集之后的可行算法。所有的这些都可能是非常好的研究点,能够带来经济和学术双重的利益。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

关于 NIPS 2016 你应该知道的 50 件事情

【新智元导读】Andreas Stuhlmüller 目前在斯坦福 Noah Goodman 教授 Computation & Cognition lab 当博...

3034
来自专栏机器之心

演讲 | 今日头条AI技术沙龙马毅:低维模型与深度模型的殊途同归

机器之心原创 作者:邱陆陆 上周,今日头条人工智能实验室在清华大学举办了第二期 AI 技术沙龙,邀请到上海科技大学信息科学与技术学院的马毅教授带来题为「高维数据...

5427
来自专栏企鹅号快讯

基于神经网络动力学模型的强化学习

选文|丁建峰翻译| 张一 许峰 金明 校对| 李韩超 编辑| 李韩超 素材来源:robohub & BAIR 泡泡机器人推广内容组编译作品 01 让机器人...

2537
来自专栏PPV课数据科学社区

数据科学的基本内容

什么是数据科学?它和已有的信息科学、统计学、机器学习等学科有什么不同?作为一门新兴的学科,数据科学依赖两个因素: 一是数据的广泛性和多样性; 二是数据研究的共性...

2575
来自专栏AI科技大本营的专栏

AI杂谈:从洗衣机到老鼠屁股

AI,即人工智能,是当前技术大热门,一定有很多同学想学,但是又觉得高深莫测,不知从何下手,没关系,本文会让大家迅速入门。

694
来自专栏PPV课数据科学社区

写给大家看的机器学习书(第三篇)

题记 —— 我们为何出发 在开始这个系列文章的第三篇之前,为了对初次见面的朋友更友好,将这个题记放在前面。 哪怕所有的初心最终都被遗忘,至少现在的我们足够认真。...

2756
来自专栏灯塔大数据

塔荐 | 关于GAN原理与应用的入门介绍

导读:生成对抗网络(GAN)是一类在无监督学习中使用的神经网络,其有助于解决按文本生成图像、提高图片分辨率、药物匹配、检索特定模式的图片等任务。Statsbot...

3494
来自专栏专知

如何用机器学习处理二元分类任务?

图像是猫还是狗?情感是正还是负?贷还是不贷?这些问题,该如何使用合适的机器学习模型来解决呢?

1123
来自专栏AI科技大本营的专栏

读了那么多GANs的原理,还是不懂怎么用!两个案例教教你

编译|AI科技大本营(rgznai100) 参与 | 尚岩奇、周翔 生成式对抗网络(GANs)是一类用于解决无监督学习问题的神经网络,它们可以完成各种任务,例如...

2838
来自专栏大数据挖掘DT机器学习

NLP中自动生产文摘(auto text summarization)

最近几年在人工智能领域中大热的工程技术deep learning,将机器对图像,语音,人类语言的认知能力都提升了不少,前前后后也涌现出不少不仅仅是很cool而且...

4835

扫码关注云+社区