深度学习理论系列之——模型方法

深度学习的模型方法及应用

上一次我发了关于深度学习基本理论与方法的文章,大家反响还不错,今天继续 上次的知识,对深度学习再做一些基础性的理论介绍,希望大家多多指教。

深度学习的具体模型及方法

1、自动编码器(AutoEncoder )

2、稀疏自动编码器(Sparse AutoEncoder)

3、限制波尔兹曼机(Restricted Boltzmann Machine)

4、深信度网络(Deep Belief Networks)

5、卷积神经网络(Convolutional Neural Networks)

  • 自动编码器( AutoEncoder )

将input输入一个encoder编码器,就会得到一个code,这个code也就是输入的一个表示,再加一个decoder解码器,这时候decoder就会输出一个信息,那么如果输出的这个信息和一开始的输入信号input是很像的(理想情况下就是一样的),就有理由相信这个code是靠谱的。所以,通过调整encoder和decoder的参数,使得重构误差最小,就得到了输入input信号的第一个表示了,也就是编码code了。

因为是无标签数据,所以误差的来源就是直接重构后与原输入相比得到。

  • 稀疏自动编码器(Sparse AutoEncoder) 在AutoEncoder的基础上加上L1的Regularity限制(L1主要是约束每一层中的节点中大部分都要为0,只有少数不为0),就可

以得到SparseAutoEncoder法。

如上图,其实就是限制每次得到的表达code尽量稀疏。因为稀疏的表达往往比其他的表达要有效。

  • 限制波尔兹曼机(RBM)

定义:假设有一个二部图,同层节点之间没有链接,一层是可视层,即输入数据层(v),一层是隐藏层(h),如果假设所有的节点都是随机二值(0,1)变量节点,同时假设全概率分布p(v,h)满足Boltzmann分布,称这个模型是RBM。

训练模型:

联合组态(jointconfiguration)的能量可以表示为:

而某个组态的联合概率分布可以通过Boltzmann分布(和这个组态的能量)来确定:

给定隐层h的基础上,可视层的概率确定:

(可视层节点之间是条件独立的)

给定可视层v的基础上,隐层的概率确定:

给定一个满足独立同分布的样本集:D={v(1), v(2),…, v(N)},我们需要学习参数θ={W,a,b}。

最大似然估计:

对最大对数似然函数求导,就可以得到L最大时对应的参数W了。

  • 深信度网络(DBN)

DBNs是一个概率生成模型,与传统的判别模型的神经网络相对,生成模型是建立一个观察数据和标签之间的联合分布,对P(Observation|Label)和 P(Label|Observation)都做了评估,而判别模型仅仅而已评估了后者,也就是P(Label|Observation)。

对于在深度神经网络应用传统的BP算法的时候,DBNs遇到了以下问题:

(1)需要为训练提供一个有标签的样本集;

(2)学习过程较慢;

(3)不适当的参数选择会导致学习收敛于局部最优解。

DBNs由多个限制玻尔兹曼机(RBM)层组成,一个典型的神经网络类型如下图所示。

在最高两层,权值被连接到一起,更低层的输出将会提供一个参考的线索或者关联给顶层,顶层就会将其联系到它的记忆内容。

  • 卷积神经网络(Convolutional Neural Networks)

卷积神经网络是一个多层的神经网络,每层由多个二维平面组成,而每个平面由多个独立神经元组成。CNNs是第一个真正成功训练多层网络结构的学习算法。

概念示范:输入图像通过与m个可训练的滤波器和可加偏置进行卷积,在C1层产生m个特征映射图,然后特征映射图中每组的n个像素再进行求和,加权值,加偏置,通过一个Sigmoid函数得到m个S2层的特征映射图。这些映射图再经过滤波得到C3层。这个层级结构再和S2一样产生S4。最终,这些像素值被光栅化,并连接成一个向量输入到传统的神经网络,得到输出。

关于参数减少与权值共享:

减少参数的方法:

每个神经元无需对全局图像做感受,只需感受局部区域(FeatureMap),在高层会将这些感受不同局部的神经元综合起来获得全局信息。

每个神经元参数设为相同,即权值共享,也即每个神经元用同一个卷积核去卷积图像。

隐层神经元数量的确定:

神经元数量与输入图像大小、滤波器大小和滤波器的滑动步长有关。

例如,输入图像是1000x1000像素,滤波器大小是10x10,假设滤波器间没有重叠,即步长为10,这样隐层的神经元个数就是(1000x1000)/ (10x10)=10000个。

总之,卷积网络的核心思想是将:局部感受野、权值共享以及时间或空间子采样这三种结构思想结合起来获得某种程度的位移、尺度、形变不变性。

CNN的优点:

1、避免了显式的特征抽取,而隐式地从训练数据中进行学习;

2、同一特征映射面上的神经元权值相同,从而网络可以并行学习,降低了网络的复杂性;

3、采用时间或者空间的子采样结构,可以获得某种程度的位移、尺度、形变鲁棒性;

4、输入信息和网络拓扑结构能很好的吻合,在语音识别和图像处理方面有着独特优势。

量化投资与机器学习

知识、能力、深度、专业

勤奋、天赋、耐得住寂寞

原文发布于微信公众号 - 量化投资与机器学习(ZXL_LHTZ_JQXX)

原文发表时间:2015-11-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏杨熹的专栏

Logistic Regression 为什么用极大似然函数

50020
来自专栏企鹅号快讯

几种循环神经网络介绍

基于图展开和参数共享的思想,我们可以设计各种循环神经网络。 ? 计算循环网络(将 x值的输入序列映射到输出值 o 的对应序列) 训练损失的计算图。损失L 衡量每...

38990
来自专栏企鹅号快讯

详解决策树 C4.5 算法

‍‍‍‍ 转自:Treant http://www.cnblogs.com/en-heng/p/5013995.html 决策树模型与学习 决策树(decisi...

37760
来自专栏SIGAI学习与实践平台

循环神经网络综述-语音识别与自然语言处理的利器

循环神经网络是一种具有记忆功能的神经网络,适合序列数据的建模。它在语音识别、自然语言处理等领域取得了成功。是除卷积神经网络之外深度学习中最常用的一种网络结构。在...

21220
来自专栏人人都是极客

Peter教你谈情说AI | 07决策树(上)—既能回归又能分类的模型

前面我们讲了线性回归模型和朴素贝叶斯分类模型。前者只能做回归,后者只能做分类。但本文中要讲的决策树模型,却既可以用于回归,又可以用于分类。

14430
来自专栏PaddlePaddle

卷积神经网络的基本结构

深度学习基础理论-CNN篇 卷积神经网络的基本结构 ? 总体来说,卷积神经网络是一种层次模型(hierarchical model),其输入是原始数据(ra...

448130
来自专栏机器学习算法工程师

【DLND 机器学习算法全栈工程师】干货!小白也能看懂的神经网络入门

导语: 干货来了,Udacity Machine Learning 课程导师 Walker 亲自出马,教你简单形象有趣地掌握神经网络! 神经网络是什么?神经网络...

37850
来自专栏ATYUN订阅号

【学术】如何在神经网络中选择正确的激活函数

在神经网络中,激活函数是必须选择的众多参数之一,以通过神经网络获得最优的成果和性能。 在这篇文章中,我将假设你已经理解了神经网络工作的基本原理,并将详细介绍涉及...

361100
来自专栏专知

【计算机视觉】检测与分割详解

【导读】神经网络在计算机视觉领域有着广泛的应用。只要稍加变形,同样的工具和技术就可以有效地应用于广泛的任务。在本文中,我们将介绍其中的几个应用程序和方法,包括语...

16630
来自专栏深度学习之tensorflow实战篇

基于gensim的Doc2Vec简析,以及用python 实现简要代码

Doc2Vec 原理: Doc2Vec 或者叫做 paragraph2vec, sentence embeddings,是一种非监督式算法,可以获得sent...

2.4K40

扫码关注云+社区

领取腾讯云代金券