首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >深度学习词汇表(一)

深度学习词汇表(一)

作者头像
AiTechYun
发布2019-05-13 10:25:08
7780
发布2019-05-13 10:25:08
举报
文章被收录于专栏:ATYUN订阅号ATYUN订阅号

作者:sunlei

发布:ATYUN订阅号

对于刚开始学习深度学习的新人来说,深度学习术语掌握起来会非常困难。这篇深度学习词汇表包含了一些深度学习的常用术语,以帮助读者深入了解特定主题。

深度学习和“一般”机器学习术语之间的界限非常模糊。我尽量让这个词汇表围绕深度学习展开,但有可能有少部分的重叠。例如,我这里不包括“交叉验证”,因为它是一种通用技术,使用了所有跨机器学习。但是,我决定将SoftMax或Word2Vec等术语包括在内,因为它们通常与深度学习相关,即使它们不是深度学习技术。

Activation Function

为了让神经网络从信息处理的角度对复杂的人脑神经元进行处理,我们将非线性激活函数应用到这个层面。信号从一个神经元进入,经过非线性激活函数,传入到下一层神经元,循环往复,直到输出层。常用的功能包括Sigmoid函数、TANH函数、RELU函数和这些功能的变体。

AdaDelta算法

AdaDelta算法主要是为了解决AdaGrad算法中存在的缺陷,在介绍Adadelta之前需要先了解Adagrad,Adadelta的特点是在下降初期,梯度比较小,这时学习率会比较大,而到了中后期,接近最低点时,梯度较大,这时学习率也会相对减小,放慢速度,以便可以迭代到最低点。Adadelta是对Adagrad的扩展,最初方案依然是对学习率进行自适应约束,但是进行了计算上的简化。Adagrad会累加之前所有的梯度平方,而Adadelta只累加固定大小的项,并且也不直接存储这些项,仅仅是近似计算对应的平均值。

Adagrad算法

Adagrad是一种自适应学习速率算法,可以跟踪随时间变化的平方梯度,并自动调整每个参数的学习速率。它可以代替普通的SGD,特别有助于稀疏数据,在稀疏数据中,它为不经常更新的参数分配更高的学习率。

Adam

Adam是一种类似于RMSprop的自适应学习速率算法,但是它的功能除了使用梯度的第一和第二力矩的运行平均值估算,还包括偏差校正项。

RMSprop, Adadelta, Adam 在很多情况下的效果是相似的。Adam 就是在 RMSprop 的基础上加了 bias-correction 和 momentum,随着梯度变的稀疏,Adam 比 RMSprop 效果会好。

整体来讲,Adam 是最好的选择。

Affine Layer

Affine Layer是神经网络中完全连接的层。仿射意味着前一层中的每个神经元都与当前层中的每个神经元相连。在许多方面,这是神经网络的“标准”层。在做出最终预测之前,通常在卷积神经网络或递归神经网络的输出端加上仿射层。仿射层的形式通常是y=f(w x+b),其中x是层输入,w是参数,b是偏压矢量,f是非线性激活函数。

Attention Mechanism

注意力机制受到人类视觉注意力的启发,即专注于处理图像特定部分的功能。用于提升基于RNN(LSTM或GRU)的Encoder + Decoder模型的效果的的机制(Mechanism),一般称为Attention Mechanism。注意力机制可以同时包含在语言处理和图像识别体系结构中,给信息赋予区别分辨的能力,以帮助了解在进行预测时“关注”什么。

Alexnet

AlexNet是2012年ImageNet竞赛冠军获得者Hinton和他的学生Alex Krizhevsky设计,是用第一作者Alex Krizhevsky的名字命名。Alexnet是卷积神经网络体系结构的名称,它的出现重新引起人们对CNN图像识别的兴趣。alexNet为8层深度网络,其中5层卷积层和3层全连接层,不计LRN层和池化层。

关于Alexnet及卷积神经网络模型分类可参考http://www.atyun.com/37216.html进行了解。

Autoencoder

AutoEncoder是深度学习的另外一个重要内容,Feature的数据进行压缩,之后再进行解压的过程。神经网络通过大量数据集,进行end-to-end的训练,不断提高其准确率,而AutoEncoder通过设计encode和decode过程使输入和输出越来越接近,是一种无监督学习过程。

Average-Pooling

池化操作时在卷积神经网络中经常采用过的一个基本操作,一般在卷积层后面都会接一个池化操作,但是近些年比较主流的ImageNet上的分类算法模型都是使用的max-pooling,很少使用average-pooling,通常来讲,max-pooling的效果更好,虽然max-pooling和average-pooling都对数据做了下采样,但是max-pooling感觉更像是做了特征选择,选出了分类辨识度更好的特征,提供了非线性,根据相关理论,特征提取的误差主要来自两个方面:(1)邻域大小受限造成的估计值方差增大;(2)卷积层参数误差造成估计均值的偏移。一般来说,average-pooling能减小第一种误差,更多的保留图像的背景信息,max-pooling能减小第二种误差,更多的保留纹理信息。average-pooling更强调对整体特征信息进行一层下采样,在减少参数维度的贡献上更大一点。

Backpropagation

Backpropagation反向传播是一种有效地计算神经网络中梯度的算法,通俗理解是一种前馈计算图,是复合函数的链接法则。它归结为从网络输出开始应用微分链规则,然后反向传播梯度。反向传播的第一个用途可以追溯到20世纪60年代的瓦普尼克,但是反向传播错误的学习表示经常被引用为来源。

Backpropagation Through Time (BPTT)

反向传播算法最早于上世纪70年代被提出,但是直到1986年,由David Rumelhart, Geoffrey Hinton, 和Ronald Williams联合发表了一篇著名论文(Learning representations by back-propagating errors)之后,人们才完全认识到这个算法的重要性。基于时间反向传播(PAPER)是应用于递归神经网络(RNN)的反向传播算法。BPTT可以看作是应用于RNN的标准反向传播算法,其中每个时间步代表一个层,参数跨层共享。由于RNN在所有时间步骤中共享相同的参数,因此一个时间步骤中的错误必须“通过时间”反向传播到所有以前的时间步骤,因此名称为。在处理长序列(数百个输入)时,通常使用截断版本的BPTT来降低计算成本。截断的BPTT在固定的步骤数后停止对错误进行反向传播。

今天先更新到这,后续还会有多个词汇,我会慢慢的为志同道合的伙伴做解释。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-03-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Activation Function
  • AdaDelta算法
  • Adagrad算法
  • Adam
  • Affine Layer
  • Attention Mechanism
  • Alexnet
  • Autoencoder
  • Average-Pooling
  • Backpropagation
  • Backpropagation Through Time (BPTT)
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档