1. 自编码器
2. 自编码器的特点
对于上述结构自编码器实际上完成了一个h_{\mathbf{W},\mathbf{b}}\left ( \mathbf{x} \right )\approx \mathbf{x} 函数的学习的过程,本身可以说并没有什么意义,但是通过观察上述的结构中,我们发现在自编码器结果中,中间的隐含层,是从特征\mathbf{x} 提取出来,同时,这提取出的特征又能还原原先的特征,简单来讲,中间层实现了对原数据的抽象,是原数据的另一种表示。对于中间的隐含层具有两种结构:
- 降维,即隐含层的节点个数要小于输入节点的个数。
- 稀疏,即在隐含层的神经元上加入稀疏性的限制。
3. 稀疏性约束
对于使用Sigmoid作为神经元的激活函数的情况下,若神经元的输出为1 表示该神经元被激活,否则称为未被激活,则稀疏性的含义是指在大多数情况下神经元都是未被激活的。可以使用神经元的输出作为神经元的激活度,即对于隐含层的第j 个神经元,其激活度为:
a_j^{(2)}=f\left ( W_{j1}^{(1)}x_1+W_{j2}^{(1)}x_2+\cdots +W_{j6}^{(1)}x_6+b_j^{(1)} \right )则对于m 个样本,其平均激活度为:
\hat{\rho }_j=\frac{1}{m}\sum_{i=1}^{m}\left [ a_j^{(2)}\left ( \mathbf{x}^{(i)} \right ) \right ]假设令\hat{\rho }_j=\rho ,其中\rho 是一个常数,表示的是稀疏性参数,通常可以取一个接近于0 的常数,如取\rho =0.05 。为了使得模型比较稀疏,我们希望平均激活度能够尽可能接近稀疏性常数,通常可以取相对熵来度量平均激活度与稀疏性参数之间的差异程度。
4. 相对熵的概念
要说相对熵,首先得说说“什么是熵”。熵也称为信息熵,是反应了一个系统有序化程度的指标,一个系统越有序,那么其熵就越低,反之,熵就越大。熵的公式如下:
H\left ( x \right )=-\sum_{i=1}^{n}p\left ( x_i \right )logp\left ( x \right )对于上述的自编码器模型,其隐含层的第j 个神经元的平均激活度为:
\hat{\rho }_j=\frac{1}{m}\sum_{i=1}^{m}\left [ a_j^{(2)}\left ( \mathbf{x}^{(i)} \right ) \right ]稀疏性常数为:\rho ,则对于隐含层的相对熵为:
\sum_{j=1}^{s_2}\rho log\frac{\rho }{\hat{\rho }_j}+\left ( 1-\rho \right )log\frac{1-\rho }{1-\hat{\rho }_j}其中,s_2 表示的是隐含层节点的个数,相对熵又称为KL散度,即:
\sum_{j=1}^{s_2}KL\left ( \rho \parallel \hat{\rho }_j \right )=\sum_{j=1}^{s_2}\rho log\frac{\rho }{\hat{\rho }_j}+\left ( 1-\rho \right )log\frac{1-\rho }{1-\hat{\rho }_j}相对熵是一种用来度量两个分布之间的差异的方法。对于上述的相对熵,若\rho =\hat{\rho }_j 时达到最小值,最小值为0 ,否则差距越大,相对熵的值越大,如下图所示:
从上图中,我们看出:
5. 稀疏自编码器
对于稀疏自编码器的损失函数,其与神经网络的损失函数一致,可以表示为:
J\left ( \mathbf{W},\mathbf{b} \right )则对于稀疏自编码器,其损失函数即在神经网络的损失函数的基础上加上稀疏性的约束即可,即为:
J_{sparse}\left ( \mathbf{W},\mathbf{b} \right )=J\left ( \mathbf{W},\mathbf{b} \right )+\beta \sum_{j=1}^{s_2}KL\left ( \rho \parallel \hat{\rho }_j \right )其中,\beta 控制稀疏性的权重。在更新的过程中,原本在神经网络中,更新公式为:
\delta _i^{(2)}=\left ( \sum_{j=1}^{s_2}W_{ji}^{(2)}\delta _j^{(3)} \right ){f}'\left ( z_i^{(2)} \right )则在稀疏自编码器中的隐含层为:
\begin{matrix} \delta _i^{(2)}=\frac{\partial }{\partial z_i^{(2)}}J_{sparse}\left ( \mathbf{W},\mathbf{b};\mathbf{x},y \right )\\ =\frac{\partial }{\partial z_i^{(2)}}\left [ \frac{1}{2}\left \| y-h_{W,b}\left ( x \right ) \right \|^2+\beta \sum_{i=1}^{s_2}\rho log\frac{\rho }{\hat{\rho }_i}+\left ( 1-\rho \right )log\frac{1-\rho }{1-\hat{\rho }_i} \right ]\\ =\frac{\partial }{\partial z_i^{(2)}}\left [ \frac{1}{2}\sum_{j=1}^{s_3}\left \| y_j-a_j^{(3)} \right \|^2+\beta \sum_{i=1}^{s_2}\rho log\frac{\rho }{\hat{\rho }_i}+\left ( 1-\rho \right )log\frac{1-\rho }{1-\hat{\rho }_i} \right ]\\ \frac{1}{2}\sum_{j=1}^{s_3}\frac{\partial }{\partial z_j^{(3)}}\left \| y_j-a_j^{(3)} \right \|^2\cdot \frac{\partial }{\partial z_i^{(2)}}z_j^{(3)}+\beta \frac{\partial }{z_i^{(2)}}\sum_{i=1}^{s_2}\rho log\frac{\rho }{\hat{\rho }_i}+\left ( 1-\rho \right )log\frac{1-\rho }{1-\hat{\rho }_i}\\ \end{matrix}\begin{matrix} =\sum_{j=1}^{s_3}\delta _j^{(3)}\cdot \frac{\partial }{\partial z_i^{(2)}}\sum_{i=1}^{s_2}f\left ( z_i^{(2)} \right )\cdot W_{ji}^{(2)}\\ +\beta \frac{\partial }{z_i^{(2)}}\left ( \rho log\frac{\rho }{\hat{\rho }_i}+\left ( 1-\rho \right )log\frac{1-\rho }{1-\hat{\rho }_i} \right )\\ =\sum_{j=1}^{s_3}\delta _j^{(3)}\cdot W_{ji}^{(2)}\cdot {f}'\left ( z_i^{(2)} \right )\\ +\beta \left ( \rho \cdot \frac{\hat{\rho }_i}{\rho }\cdot \frac{\partial }{\partial z_i^{(2)}}\left ( \frac{\rho }{\hat{\rho }_i} \right )+\left ( 1-\rho \right )\cdot \frac{1-\hat{\rho }_i}{1-\rho }\cdot \frac{\partial }{\partial z_i^{(2)}}\cdot \left ( \frac{1-\rho }{1-\hat{\rho }_i} \right )\right )\\ \end{matrix}\begin{matrix} =\sum_{j=1}^{s_3}\delta _j^{(3)}\cdot W_{ji}^{(2)}\cdot {f}'\left ( z_i^{(2)} \right )\\ +\beta \left ( \hat{\rho }_i\cdot \frac{-\rho }{\left ( \hat{\rho }_i \right )^2}\cdot \frac{\partial }{\partial z_i^{(2)}}\hat{\rho }_i+\left ( 1-\hat{\rho }_i \right )\frac{-\left ( 1-\rho \right )}{\left ( 1-\hat{\rho }_j \right )^2}\cdot \frac{\partial }{\partial z_i^{(2)}}\left ( 1-\hat{\rho }_j \right )\right )\\ =\sum_{j=1}^{s_3}\delta _j^{(3)}\cdot W_{ji}^{(2)}\cdot {f}'\left ( z_i^{(2)} \right )\\ +\beta \left ( \frac{-\rho }{\hat{\rho }_i}\cdot {f}'\left ( z_i^{(2)} \right )+\frac{-\left ( 1-\rho \right )}{1-\hat{\rho }_i}\cdot \left [ -{f}'\left ( z_i^{(2)} \right ) \right ] \right )\\ =\left ( \left ( \sum_{j=1}^{s_3}\delta _j^{(3)}\cdot W_{ji}^{(2)} \right )+\beta \left ( -\frac{\rho }{\hat{\rho }_i}+ \frac{ 1-\rho }{1-\hat{\rho }_i}\right ) \right )\cdot {f}'\left ( z_i^{(2)} \right ) \end{matrix}对于稀疏自编码器,其更新公式为:
\delta _i^{(2)}=\left ( \sum_{j=1}^{s_2}W_{ji}^{(2)}\delta _j^{(3)}+\beta \left ( -\frac{\rho }{\hat{\rho }_i}+\frac{1-\rho }{1-\hat{\rho }_i} \right ) \right ){f}'\left ( z_i^{(2)} \right )参考文献
[1] 英文版:UFLDL Tutorial
[2] 中文版:UFLDL教程
[3] 《深度学习》学习笔记(一):稀疏自编码器(Sparse Autoencoder)