前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【深度学习路线图】关键概念、模型及其发展关系

【深度学习路线图】关键概念、模型及其发展关系

作者头像
新智元
发布2018-03-27 17:05:04
1.7K0
发布2018-03-27 17:05:04
举报
文章被收录于专栏:新智元新智元

【新智元导读】新智元以前也译介过 Carlos E. Perez 关于深度学习的文章。这次我们要介绍的是他最新制作的“深度学习路线图”。

Perez 发现,他跟踪研究深度学习好几年,发现还没有人制作过一个地图将事情的发展脉络梳理出来。于是,他很快自己动手做了一份。

需要指出的是,这只是一份非常初级的地图,有很多关键概念和思想都没有纳入进来。不过,就像 Perez 自己说的那样,这只是个开始,希望有更多人站出来继续扩充这份地图

据 Perez 介绍,他的这份地图里,无监督学习的部分来自苹果 AI 负责人、CMU 教授 Russ Salakhutdinov 的演讲。强化学习的部分则来自 OpenAI 研究科学家、伯克利教授 Pieter Abbeel 的演讲。

深度学习发展日新月异,地图中标记出来的概念还有很多的衍生,这次尚未没有收录。此外,图中已有概念之间的关系也没有全部标出,例如,卷积神经网络(CNN)可以用于值迭代(Value Iteration),对抗生成网络(GAN)和变分自编码器(VAE)也可以使用深度学习框架。

金字塔的顶部:元学习、模块化深度学习、市场调节

首先,在更高级的层面,Perez 认为存在这样的关系:

元学习(Meta Learning)、模块化的深度学习(Modular Deep Learning)和由市场所驱动的调整(Market Driven Coordination)三者之间,彼此相互影响。

这一点很好理解,模块化的深度学习类似算法,新智元在《2016 年深度学习三大趋势》一文里报道过,Gartner 分析认为,算法将形成一个全球性的交易市场,世界各地的研究人员、工程师都能在这个市场上创造、分享乃至合成大规模的新算法。届时,算法也将变得像集装箱一样,能够任意组和扩展,从而搭建适用于不同应用的架构。就像当年的 App 经济,算法经济也将催生出全新一代的专业技术初创企业,并且革新机器与机器之间的交互方式——当然,这些都离不开市场的调节。

而元学习(Meta Learning)也就是让机器学会学习(learning to learn)。元学习的发展会影响深度学习的发展(反之亦然),同时也与应用需求密切相关。

在上个月谷歌大脑负责人 Jeff Dean 在 UCSB 做了题为《通过大规模深度学习构建智能系统》的演讲,其中就提到谷歌大脑最近的一个研究热点是自主机器学习,也即让机器学会学习。Jeff Dean 表示,目前人工智能领域解决问题所需的就是机器学习技术、计算和数据,我们能否减少对这种技术本身的需求呢?他认为是可能的。“自动机器学习”这个方向正是他来到的谷歌大脑团队正在积极探索的、最有希望的领域之一。”

接下来,在 Perez 的路线图中,无监督学习(Unsupervised Learning)属于元学习,而强化学习(Reinforcement Learning)则是由市场调节驱动的。

下面就是 Carlos E. Perez 根据他的理解画出的深度学习路线图。

图上文字太小看不清?

没关系,下面我们来看局部图:

监督学习→优化算法

从模块化深度学习发展出来的第一部分就是监督学习(Supervised Learning),而在监督学习中会用到各种优化算法(Optimization Algorithm),优化算法有很多,最常见的一个就是随机梯度下降(SGD),其他还有二阶算法、不含梯度的算法。

值得注意的是,Perez 将“自主学习”(Learning to Learn)也算作优化算法的一种——当然,机器/神经系统自我完善也算是优化吧。

监督学习→目标函数

依然是从模块化深度学习出来到监督学习,监督学习的另一个分支是各种目标函数(Objective Function),包括 EMD、KL 散度和基于能量的模型(Energy Based Model)。

监督学习→各种层

在路线图中,由监督学习延伸出去的还有“层”(Layer)这个概念,层又分为:卷积层(CNN)、自回归层(Autoregressive layer)、全连接层(MLP),以及带有记忆的层(Layers with Memory),典型的就是长短时记忆(LSTM)模型。

再往下分(在图中应该是往上走),PixelCNN 看名字也知道是属于 CNN 的,PixelRNN 则是属于 RNN 的。而 RNN 循环神经网络(或者叫递归神经网络),是一种自回归的模型。

无监督学习→概率模型→显示密度模型

接下来,我们来看 Perez 关于无监督学习和强化学习的梳理。

首先是无监督学习,正如上文所说,在 Perez 的路线图中,无监督学习(Unsupervised Learning)属于元学习(Meta-Learning)。

无监督学习分为概率模型(Probabilistic Model)和非概率模型(Non-Probabilistic Model)。稀疏编码、自编码器和 K-means 都属于非概率模型。

而在概率模型中衍生出了两条分支:显式密度模型(Explicitly Density Model)和隐性密度模型(Implicit Density Model),现在大火的生成对抗网络(GAN)就属于后者。

显式密度模型又分为易解模型(Tractable Model)和难解模型(Non-Tractable Model)。NADE、PixelRNN 都属于可解模型。而玻尔兹曼机(BMV)、变分自编码器(VAE)则属于难解模型。

强化学习→策略优化 & 动态编程

最后来看强化学习(Reinforcement Learning),也即通过试错、单纯地通过奖励或者惩罚完成的学习范式。DeepMind 创新性地将强化学习和深度学习融合起来,创造出的 AlphaGio 惊艳了世界,DeepMind 后来相继研发出的智能体也都在许多困难领域实现人类级别的表现。

在 Perez 的路线图中,强化学习有两大分支,策略优化(Policy Optimization)和动态编程(Dynamic Programming)。

而策略优化又分为无导数优化方法(Derivative Free Optimization)和策略梯度方法(Policy Gradients)。

动态编程则衍生出值迭代(Value Iteration),再到 Q-Learning。3 年前,DeepMind 推出了第一个获得大范围成功的深度增强学习算法,内含的核心概念是使用深度神经网络代表 Q-Nerwork,并且训练这一 Q-Nework,让其预测总体的奖励。最重要的是,DeepMind 当时解决稳定性的问题,为 50 个不同的 Atari 游戏分别训练了不同的、不含任何先验知识的 DQN 智能体,结果 DQN 在近一半的游戏中都达到了人类的水平。这也成了 DeepMind 2015 年发表在 Nature 的论文。

动态编程的另一条分支是策略迭代(Policy Iteration)。

值得注意,策略梯度和策略迭代最后都能推导出 Actor Critic 方法。

进击的深度学习

深度学习还在不断发展,不断有新的模型和架构产生。就像最开始说的,这份路线图只是草图,需要更多的人来完善——不仅仅是图,还有深度学习本身。

  • Perez 原文:https://medium.com/intuitionmachine/the-deep-learning-roadmap-f0b4cac7009a
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-04-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档