在本文中,我们提出了一个结合了RNN和SGVB优势的模型:变分自动编码器(VRAE)。 这种模型可用于对时间序列数据进行有效的大规模无监督学习,将时间序列数据映射到潜在向量表示。 该模型是生成模型,因此可以从隐藏空间的样本生成数据。 这项工作的一个重要贡献是该模型可以利用未标记的数据,以便通过初始化权重和网络状态来促进对RNN的监督训练。
我们提出了一种基于变分贝叶斯的新RNN模型:变分循环自动编码器(VRAE)。 该模型类似于自动编码器,因为它学习了一个编码器,用于学习从数据到潜在表示的映射,以及从潜在表示到数据的解码器。然而,变分贝叶斯方法将数据映射到分布上 这种类型的网络可以使用随机梯度变分贝叶斯(SGVB)进行有效训练.
VRAE允许将时间序列映射到潜在表示,并且它允许对时间序列进行有效的,大规模的无监督变分学习。 此外,训练有素的VRAE为标准RNN提供了合理的权重初始化和网络状态。 通常,网络状态初始化为零,但Pascanu等人。 已经表明网络状态是解释爆炸梯度问题的一个重要因素。 使用权重和从VRAE获得的网络状态初始化标准RNN可能会使训练更有效,并且可能避免爆炸性梯度问题并实现更好的分数.
由Kingma&Welling(2013)和Rezende等人独立开发的随机梯度变分贝叶斯(SGVB) 是一种训练模型的方法,其中假设使用一些未观察到的连续随机变量z生成数据。 通常,边际似然性
对于这些模型是难以处理的,并且即使对于小数据集,基于采样的方法在计算上也太昂贵。 SGVB通过用
近似真实的后验
然后优化对数似然的下界来解决这个问题。 类似于Kingma论文中的命名法,我们称
为编码器,
为解码器。
数据点i的对数似然可以写为真实后验
和近似
之间的下界和KL发散项之和,其中θ是模型的参数:
由于KL散度是非负的,因此
是对数似然的下界。 该下限可表示为:
如果我们想用梯度上升来优化这个下界,我们需要关于所有参数的梯度。 获得编码器的梯度是相对简单的,但是获得解码器的梯度不是。 为了解决这个问题,引入了“重新参数化技巧”,其中它们将随机变量
重新参数化为确定性变量
。 在我们的模型中,潜在变量是单变量高斯,所以重新参数化是z =μ+σ,其中
以这种方式对潜在变量建模允许分析地积分KL散度,从而产生以下估计:
编码器包含一组循环连接,使得状态
基于先前状态和相应时间步长的数据
计算。 Z上的分布是从RNN的最后状态获得的,
,这样:
KaTeX parse error: Can't use function '$' in math mode at position 51: …} + b_{\sigma} $̲$ 其中 $h_0$是初始化的…
KaTeX parse error: Can't use function '$' in math mode at position 36: …h-t + b_{out}) $̲$ ![Screenshota…