深度学习概述

神经网络定义

目前,关于神经网络的定义尚不统一,按美国神经网络学家Hecht Nielsen 的观点,神经网络的定义是:“神经网络是由多个非常简单的处理单元彼此按某种方式相互连接而形成的计算机系统,该系统靠其状态对外部输入信息的动态响应来处理信息”。

综合神经网络的来源﹑特点和各种解释,它可简单地表述为:人工神经网络是一种旨在模仿人脑结构及其功能的信息处理系统。

人工神经网络(简称神经网络):是由人工神经元互连组成的网络,它是从微观结构和功能上对人脑的抽象、简化,是模拟人类智能的一条重要途径,反映了人脑功能的若干基本特征,如并行信息处理、学习、联想、模式分类、记忆等。

深度学习一般指深度神经网络,这里的深度指神经网络的层数(较多)。

深度学习里程碑

单层感知器基本结构

上面的感知器,相当于一个分类器,它使用高维的X向量作为输入,在高维空间对输入的样本进行二分类:当W^T X>0时,o=1,相当于样本被归类为其中一类。否则,o=-1,相当于样本被归类为另一类。这两类的边界在哪里呢?就是W^T X=0,这是一个高维超平面。

分割点

分割直线

分割平面

分割超平面

Ax+B=0

Ax+By+C=0

Ax+By+Cz+D=0

W^T X+b=0

感知器的训练法则

感知器的训练法则:对于每一个训练样例<X,t>

使用当前的权值计算感知器输出o;

对于每一个权值做如下的更新:

其中,X为输入向量,t为目标值,o为感知器当前权值下的输出,η为学习率,x_i和ω_i为向量X和W的第i个元素。

当训练样例线性可分时,反复使用上面的方法,经过有限次训练,感知器将收敛到能正确分类所有训练样例的分类器。

在训练样例线性不可分时,训练很可能无法收敛。因此,人们设计了另一个法则来克服这个不足,称为delta法则。它使用梯度下降(Gradient Descent)的方法在假设空间中所有可能的权向量,寻找到最佳拟合训练样例的权向量。

梯度下降与损失函数

l对于多元函数o=f(x)=f(x_0,x_1,…,x_n ),其在X^′=〖[〖x_0〗^′,〖x_1〗^′,…,〖x_n〗^′]" " 〗^T处的梯度为:

梯度向量的方向,指向函数增长最快的方向。因此,负梯度向量-∇f,则指向函数下降最快的方向。

当训练样例线性不可分的时候,我们无法找到一个超平面,令感知器完美分类训练样例,但是我们可以近似地分类他们,而允许一些小小的分类错误。怎样让这个错误最小呢,首先要参数化描述这个错误,这就是损失函数(误差函数),它反映了感知器目标输出和实际输出之间的误差。最常用的误差函数为L2误差:

其中,d为训练样例,D为训练样例集,t_d为目标输出,o_d为实际输出。

损失函数的极值

既然损失函数E(W)的自变量是权值,因此他是定义在权值空间上的函数。那么问题就转化成了在权值空间中,搜索使得E(W)最小的权值向量W。然而不幸的是,E(W)=1/2 ∑_(d∈D)▒(t_d-o_d )^2 定义了一个非常负杂的高维曲面,而数学上,对高维曲面的极值求解还没有有效的方法。既然负梯度方向是函数下降最快的方向,那我们可以从某个点开始,沿着−()方向一路前行,期望最终可以找到E(W)的极小值点,这就是梯度下降法的核心思想。

线性单元全局梯度下降算法

对于训练样例集D中的每一个样例记为<X, t>,X是输入值向量,t为目标输出,η是学习率。

初始化每个w_i为绝对值较小的随机值

遇到终止条件前,do:

初始化每个∆w_i为零

对于D中每个<X, t>,do:

将X输入此单元,计算输出o

对于此单元的每个w_i,do:∆w_i+= η(t-o) x_i

对于此单元的每个w_i,do:w_i+= ∆w_i

这个版本的梯度下降算法,实际上并不常用,它的主要问题是:

收敛过程非常慢,因为每次更新权值都需要计算所有的训练样例;

如果误差曲面上有多个局部极小值,那么这个过程极易陷入局部极值。

随机梯度下降算法和在线学习

针对原始梯度下降算法的弊端,一个常见的变体称为增量梯度下降(Incremental Gradient Descent),亦即随机梯度下降(SGD:Stochastic Gradient Descent)。其中一种实现称为在线学习(Online Learning),它根据每一个样例来更新梯度:

ONLINE-GRADIENT-DESCENT(D, η)

初始化每个_为绝对值较小的随机值

遇到终止条件前,do:

对于D中每个<X, t>,do:

  • 将X输入此单元,计算输出o
  • 对于此单元的每个_,do:_ += η(t-o) _

Mini-Batch梯度下降

针对上两种梯度下降算法的弊端,提出了一个实际工作中最常用的梯度下降算法,即Mini-Batch SGD。它的思想是每次使用一小批固定尺寸(BS:Batch Size)的样例来计算∆w_i,然后更新权值。

BATCH-GRADIENT-DESCENT(D, η, BS)

初始化每个w_i为绝对值较小的随机值

遇到终止条件前,do:

初始化每个∆w_i为零

从D中下一批(BS个)样例,对这批样例中的每一个<X, t>,do:

  • 将X输入此单元,计算输出o
  • 对于此单元的每个w_i,do:∆w_i += η(t-o) x_i

对于此单元的每个w_i,do:w_i += ∆w_i

如果已经是最后一批,打乱训练样例的顺序。

激活函数 - Sigmoid函数

Sigmoid函数:

tanh函数:

Softsign函数:

ReLU( Rectified Linear Unit )函数:

Softplus函数:

f(x)=ln⁡(e^x+1)

激活函数设计需考虑的因素

非线性:当激活函数是非线性的,一个两层神经网络可以证明是一个通用函数近似值,如果失去了非线性,整个网络就相当于一个单层的线性模型。

连续可微性:这个属性对基于梯度优化方法是必要的,如果选择了一些具有局部不可微的函数,则需要强行定义此处的导数。

有界性:如果激活函数有界的,基于梯度的训练方法往往更稳定;如果是无界的,训练通常更有效率,但是训练容易发散,此时可以适当减小学习率。

单调性:如果激活函数是单调的,与单层模型相关的损失函数是凸的。

平滑性:有单调导数的平滑函数已经被证明在某些情况下泛化效果更好。

原点附近近似Identity:当激活函数有这个特点时,对于小的随机初始化权重,神经网络能够更有效地学习。否则,在初始化权值时往往需要进行特殊设计。

神经网络的种类

多层全连接人工神经网络

单个感知器的表达能力有限,它只能表达线性决策面(超平面)。如果我们把众多的感知器互联起来,就像人的大脑做所的那样,再将激活函数更换为非线性函数,我们就可以表达种类繁多的非线性曲面。

前馈神经网络

前馈神经网络是一种最简单的神经网络,各神经元分层排列。是目前应用最广泛、发展最迅速的人工神经网络之一。

可以看出,输入节点并无计算功能,只是为了表征输入矢量各元素值。

各层节点表示具有计算功能的神经元,称为计算单元。每个神经元只与前一层的神经元相连。

接收前一层的输出,并输出给下一层,采用一种单向多层结构,每一层包含若干个神经元,同一层的神经元之间没有互相连接,层间信息的传送只沿一个方向进行。

反向传播算法

有了这个公式,我们就可以训练神经网络了,公式重列如下:

BP算法训练网络的步骤如下:

1.取出下一个训练样例<X, T>,将X输入网络,得到实际输出O。

2.根据输出层误差公式(1)求取输出层δ,并更新权值。

3.对于隐层,根据隐层误差传播公式(2)从输出往输入方向反向、逐层、迭代计算各层的δ,每计算好一层的δ,更新该层权值,直至所有权值更新完毕。

返回1中继续。

卷积神经网络

l卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于图像处理有出色表现。它包括卷积层(convolutional layer),池化层(pooling layer)和全连接层(fully_connected layer)。

l20世纪60年代,Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性,继而提出了卷积神经网络(Convolutional Neural Networks-简称CNN)。

l现在,CNN已经成为众多科学领域的研究热点之一,特别是在模式分类领域,由于该网络避免了对图像的复杂前期预处理,可以直接输入原始图像,因而得到了更为广泛的应用。

卷积神经网络

卷积层

卷积神经网络的基本结构,就是前面说的多通道卷积。上一层的输出(或者第一层的原始图像),作为本层的输入,然后和本层的卷积核卷积,作为本层输出。而各层的卷积核,就是要学习的权值。和FCN类似,卷积完成后,输入下一层之前,也需要经过偏置和通过激活函数进行激活。

池化层

Pooling的中文名为池化,它合并了附近的单元,减小了下层输入的尺寸。常用的Pooling有Max Pooling和Average Pooling,顾名思义,Max Pooling选择一小片正方形区域中最大的那个值作为这片小区域的代表,而Average Pooling则使用这篇小区域的均值代表之。这片小区域的边长为池化窗口尺寸。下图演示了池化窗口尺寸为2的一般Max池化操作。

循环神经网络

循环神经网络(Recurrent neural networks,简称RNN)是一种通过隐藏层节点周期性的连接,来捕捉序列化数据中动态信息的神经网络,可以对序列化的数据进行分类。

和其他前向神经网络不同,RNN可以保存一种上下文的状态,甚至能够在任意长的上下文窗口中存储、学习、表达相关信息,而且不再局限于传统神经网络在空间上的边界,可以在时间序列上有延拓,直观上讲,就是本时间的隐藏层和下一时刻的隐藏层之间的节点间有边。

RNN广泛应用在和序列有关的场景,如如一帧帧图像组成的视频,一个个片段组成的音频,和一个个词汇组成的句子。

展开的循环神经网络

循环神经网络类型

标准LSTM结构

深度学习中的正则化

正则化是机器学习中非常重要并且非常有效的减少泛化误差的技术,特别是在深度学习模型中,由于其模型参数非常多非常容易产生过拟合。因此研究者也提出很多有效的技术防止过拟合,比较常用的技术包括:

  • 参数添加约束,例如L_1、L_2范数等。
  • 训练集合扩充,例如添加噪声、数据变换等。
  • Dropout

参数惩罚

l许多正则化方法通过对目标函数J添加一个参数惩罚Ω(θ),限制模型的学习能力。我们将正则化后的目标函数记为J ̃。

J ̃(θ;X,y)=J(θ;X,y)+αΩ(θ),

其中αϵ[0,∞)是权衡范数惩罚项Ω和标准目标函数J(X;θ)相对贡献的超参数。将α设为0表示没有正则化。α越大,对应正则化惩罚越大。

L 1正则

l对模型参数添加L_1范数约束,即

J ̃(w;X,y)=J(w;X,y)+α‖w‖_1,

l如果通过梯度方法进行求解时,参数梯度为

∇J ̃(w)=∝sign(w)+∇J(w).

L 2正则

l参数约束添加L_2范数惩罚项,该技术用于防止过拟合。

J ̃(w;X,y)=J(w;X,y)+1/2 α‖w‖^2,

通过最优化技术,例如梯度相关方法可以很快推导出,参数优化方式为

w=(1-εα)ω-ε∇J(w),

其中ε为学习率,相对于正常的梯度优化公式,对参数乘上一个缩减因子。

L 2 VS L 1

L_2与L_1的主要区别如下:

通过上面的分析,L_1相对于L_2能够产生更加稀疏的模型,即当L_1正则在参数w比较小的情况下,能够直接缩减至0,因此可以起到特征选择的作用。

如果从概率角度进行分析,很多范数约束相当于对参数添加先验分布,其中L_2范数相当于参数服从高斯先验分布;L_1范数相当于拉普拉斯分布。

数据集合扩充

防止过拟合最有效的方法是增加训练集合,训练集合越大过拟合概率越小。数据集合扩充是一个省时有效的方法,但是在不同领域方法不太通用。

  • 在目标识别领域常用的方法是将图片进行旋转、缩放等(图片变换的前提是通过变换不能改变图片所属类别,例如手写数字识别,类别6和9进行旋转后容易改变类目)。
  • 语音识别中对输入数据添加随机噪声。
  • NLP中常用思路是进行近义词替换。
  • 噪声注入,可以对输入添加噪声,也可以对隐藏层或者输出层添加噪声。例如对于softmax 分类问题可以通过 Label Smoothing技术添加噪声,对于类目0-1添加噪声,则对应概率变成ε/k,1-(k-1)/k ε。

Dropout

lDropout是一类通用并且计算简洁的正则化方法,在2014年被提出后广泛的使用。简单的说,Dropout在训练过程中,随机的丢弃一部分输入,此时丢弃部分对应的参数不会更新。相当于Dropout是一个集成方法,将所有子网络结果进行合并,通过随机丢弃输入可以得到各种子网络。例如

优化器

在梯度下降算法中,有各种不同的改进版本。在面向对象的语言实现中,往往把不同的梯度下降算法封装成一个对象,称为优化器。

算法改进的目的,包括但不限于:

  • 加快算法收敛速度;
  • 尽量避过或冲过局部极值;
  • 减小手工参数的设置难度,主要是Learning Rate(LR)。

常见的优化器如:普通GD优化器、动量优化器、Nesterov、Adagrad、Adadelta、RMSprop、Adam、AdaMax、Nadam

本文分享自微信公众号 - 机器学习与统计学(tjxj666)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-04-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • TensorFlow 深度学习概述

    作者: 陈迪豪,就职小米科技,深度学习工程师,TensorFlow代码提交者。 TensorFlow深度学习框架 Google不仅是大数据和云计算的领导者,在机...

    IT派
  • 【深度学习】深度学习概述:从感知机到深度网络

    近些年来,人工智能领域又活跃起来,除了传统了学术圈外,Google、Microsoft、facebook等工业界优秀企业也纷纷成立相关研究团队,并取得了很多令人...

    陆勤_数据人网
  • 神经网络和深度学习(一)——深度学习概述

    神经网络和深度学习(一) ——深度学习概述 (原创内容,转载请注明来源,谢谢) 一、监督学习与神经网络 监督学习可以在一些地方应用,包括房价预测、广告精准定位、...

    企鹅号小编
  • 神经网络和深度学习(一) ——深度学习概述

    神经网络和深度学习(一)——深度学习概述 (原创内容,转载请注明来源,谢谢) 一、监督学习与神经网络 监督学习可以在一些地方应用,包括房价预测、广告精准定位...

    用户1327360
  • 深度学习概述:从感知机到深度网络

    http://www.cnblogs.com/xiaowanyer/p/3701944.html

    bear_fish
  • Deep Learning Book中文第一章 深度学习概述

    深度学习虽然很火,但是还有很多人对深度学习理解不同,第一章将深度学习的特点和其他机器学习、AI等概念进行分析比较,值得一读。

    用户1908973
  • PointNet:三维点云分割与分类的深度学习—概述

    本文是关于PointNet点云深度学习的翻译与理解,PointNet是一种直接处理点云的新型神经网络,它很好地体现了输入点云的序列不变性。

    点云PCL博主
  • 毕业设计之「神经网络与深度学习概述」 (一)

    本章节属于我毕业设计系列推文中的基础篇内容,是对神经网络与深度学习基础的一个概述,共包括两节内容(分别是毕业设计之「神经网络与深度学习概述」 (一)和 毕业设计...

    石璞东
  • 毕业设计之「神经网络与深度学习概述」(二)

    首先,来说一下卷积的概念,从数学角度来看,可以简单的认为卷积是一种数学运算,在通信领域,卷积也被应用在滤波上,因此通常将卷积和滤波同等看待,卷积核也经常被称为滤...

    石璞东
  • 深度学习概述与发展历史-花书第一章解读(上)

    我的整理/学习计划,主要以NG的DL课程为蓝本,以DL花书为主要阅读材料,以其他网课与BLOG相关内容为参考。NG的DL课程与花书有如下对应关系:课程一《神经网...

    企鹅号小编
  • Coursera吴恩达《神经网络与深度学习》课程笔记(1)-- 深度学习概述

    吴恩达(Andrew Ng)相信大家都不陌生了。8 月 8 日,吴恩达在他自己创办的在线教育平台 Coursera 上线了他的人工智能专项课程(Deep Lea...

    红色石头
  • 深度强化学习智能交通 (I) :深度强化学习概述

    随着城市化进程的加快和自动技术的最新发展,交通研究逐渐向智能化方向发展,称为智能交通系统(ITS)。人工智能(AI)试图用最少的人工干预来控制系统。智能交通系统...

    数据酷客
  • 从语言学到深度学习NLP,一文概述自然语言处理

    选自arXiv 机器之心编译 参与:李亚洲、蒋思源 本文从两篇论文出发先简要介绍了自然语言处理的基本分类和基本概念,再向读者展示了深度学习中的 NLP。这两篇论...

    机器之心
  • 从语言学到深度学习NLP,一文概述自然语言处理

    本文从两篇论文出发先简要介绍了自然语言处理的基本分类和基本概念,再向读者展示了深度学习中的 NLP。这两篇论文都是很好的综述性入门论文,希望详细了解自然语言处理...

    小莹莹
  • 通过基于约束的领域知识改善深度学习模型:概述(CS ML)

    深度学习(DL)模型证明了自己在各种学习任务中的出色表现,因为它们可以从大型数据集中学习有用的模式。但是,当需要学习非常困难的功能或没有足够的可用训练数据时,纯...

    小童
  • 深度 | 迁移学习全面概述:从基本概念到相关研究

    选自sebastianruder.com 作者:Sebastian Ruder 机器之心编译 参与:马亚雄、吴攀、李亚洲 将在一个场景中学习到的知识迁移到另一个...

    机器之心
  • 深度学习 || 02 机器学习概述

    机器学习(Machine Learning,ML)就是让计算机从数据中进行自动学习,得到某种知识(或规律)。机器学习问题在早期的工程领域也经常称为模式识别(Pa...

    啤酒单恋小龙虾
  • 深度学习及并行化实现概述

    摘要: 深度学习可以完成需要高度抽象特征的人工智能任务,如语音识别、图像识别和检索、自然语言理解等。深层模型是包含多个隐藏层的人工神经网络,多层非线性结构使其具...

    腾讯大讲堂
  • 深度学习 || 04 机器学习概述 优化算法

    就成了一个最优化(Optimization)问题。机器学习的训练过程其实就是最优化问题的求解过程。

    啤酒单恋小龙虾

扫码关注云+社区

领取腾讯云代金券