深度学习理论系列之——模型方法

量化投资与机器学习微信公众号

发布于 2018-01-29 10:52:11

8240

发布于 2018-01-29 10:52:11

文章被收录于专栏：量化投资与机器学习

深度学习的模型方法及应用

上一次我发了关于深度学习基本理论与方法的文章，大家反响还不错，今天继续上次的知识，对深度学习再做一些基础性的理论介绍，希望大家多多指教。

深度学习的具体模型及方法

1、自动编码器（AutoEncoder ）

2、稀疏自动编码器(Sparse AutoEncoder)

3、限制波尔兹曼机（Restricted Boltzmann Machine）

4、深信度网络（Deep Belief Networks）

5、卷积神经网络（Convolutional Neural Networks）

自动编码器（ AutoEncoder ）

将input输入一个encoder编码器，就会得到一个code，这个code也就是输入的一个表示，再加一个decoder解码器，这时候decoder就会输出一个信息，那么如果输出的这个信息和一开始的输入信号input是很像的（理想情况下就是一样的），就有理由相信这个code是靠谱的。所以，通过调整encoder和decoder的参数，使得重构误差最小，就得到了输入input信号的第一个表示了，也就是编码code了。

因为是无标签数据，所以误差的来源就是直接重构后与原输入相比得到。

稀疏自动编码器(Sparse AutoEncoder) 在AutoEncoder的基础上加上L1的Regularity限制（L1主要是约束每一层中的节点中大部分都要为0，只有少数不为0），就可

以得到SparseAutoEncoder法。

如上图，其实就是限制每次得到的表达code尽量稀疏。因为稀疏的表达往往比其他的表达要有效。

限制波尔兹曼机（RBM）

定义：假设有一个二部图，同层节点之间没有链接，一层是可视层，即输入数据层（v)，一层是隐藏层(h)，如果假设所有的节点都是随机二值（0，1）变量节点，同时假设全概率分布p(v,h)满足Boltzmann分布，称这个模型是RBM。

训练模型：

联合组态（jointconfiguration）的能量可以表示为：

而某个组态的联合概率分布可以通过Boltzmann分布（和这个组态的能量）来确定：

给定隐层h的基础上，可视层的概率确定：

（可视层节点之间是条件独立的）

给定可视层v的基础上，隐层的概率确定：

给定一个满足独立同分布的样本集：D={v(1), v(2),…, v(N)}，我们需要学习参数θ={W,a,b}。

最大似然估计：

对最大对数似然函数求导，就可以得到L最大时对应的参数W了。

深信度网络（DBN）

DBNs是一个概率生成模型，与传统的判别模型的神经网络相对，生成模型是建立一个观察数据和标签之间的联合分布，对P(Observation|Label)和 P(Label|Observation)都做了评估，而判别模型仅仅而已评估了后者，也就是P(Label|Observation)。

对于在深度神经网络应用传统的BP算法的时候，DBNs遇到了以下问题：

（1）需要为训练提供一个有标签的样本集；

（2）学习过程较慢；

（3）不适当的参数选择会导致学习收敛于局部最优解。

DBNs由多个限制玻尔兹曼机（RBM）层组成，一个典型的神经网络类型如下图所示。

在最高两层，权值被连接到一起，更低层的输出将会提供一个参考的线索或者关联给顶层，顶层就会将其联系到它的记忆内容。

卷积神经网络（Convolutional Neural Networks）

卷积神经网络是一个多层的神经网络，每层由多个二维平面组成，而每个平面由多个独立神经元组成。CNNs是第一个真正成功训练多层网络结构的学习算法。

概念示范：输入图像通过与m个可训练的滤波器和可加偏置进行卷积，在C1层产生m个特征映射图，然后特征映射图中每组的n个像素再进行求和，加权值，加偏置，通过一个Sigmoid函数得到m个S2层的特征映射图。这些映射图再经过滤波得到C3层。这个层级结构再和S2一样产生S4。最终，这些像素值被光栅化，并连接成一个向量输入到传统的神经网络，得到输出。