仅在一个时间步的输出和下一个时间步的隐藏单元间存在循环连接的网络确实没有那么强大(因为缺乏隐藏到隐藏的循环连接)。例如,它不能模拟通用图灵机。因为这个网络缺少隐藏到隐藏的循环,它要求输出单元捕捉用于预测未来的关于过去的所有信息。因为输出单元明确地训练成匹配训练集的目标,它们不太能捕获关于过去输入历史的必要信息,除非用户知道如何描述系统的全部状态,并将它作为训练目标的一部分。消除隐藏到隐藏循环的优点在于,任何基于比较时刻 t 的预测和时刻 t 的训练目标的损失函数中的所有时间步都解耦了。因此训练可以并行化,即在各时刻 t 分别计算梯度。因为训练集提供输出的理想值,所以没有必要先计算前一时刻的输出。
由输出反馈到模型而产生循环连接的模型可用 导师驱动过程(teacher forcing)进行训练。训练模型时,导师驱动过程不再使用最大似然准则,而在时刻 t + 1 接收真实值 y(t)作为输入。我们可以通过检查两个时间步的序列得知这一点。条件最大似然准则是
(15 16)
在这个例子中,同时给定迄今为止的 x 序列和来自训练集的前一 y 值,我们可以看到在时刻 t = 2 时,模型被训练为最大化 y(2)的条件概率。因此最大似然在训练时指定正确反馈,而不是将自己的输出反馈到模型,如图1所示。我们使用导师驱动过程的最初动机是为了在缺乏隐藏到隐藏连接的模型中避免通过时间反向传播。只要模型一个时间步的输出与下一时间步计算的值存在连接,导师驱动过程仍然可以应用到这些存在隐藏到隐藏连接的模型。然而,只要隐藏单元成为较早时间步的函数,BPTT 算法是必要的。因此训练某些模型时要同时使用导师驱动过程和 BPTT。
如果之后网络在开环 (open-loop) 模式下使用,即网络输出(或输出分布的样本)反馈作为输入,那么完全使用导师驱动过程进行训练的缺点就会出现。在这种情况下,训练期间该网络看到的输入与测试时看到的会有很大的不同。减轻此问题的一种方法是同时使用导师驱动过程和自由运行的输入进行训练,例如在展开循环的输出到输入路径上预测几个步骤的正确目标值。通过这种方式,网络可以学会考虑在训练时没有接触到的输入条件(如自由运行模式下,自身生成自身),以及将状态映射回使网络几步之后生成正确输出的状态。另外一种方式 (Bengio et al., 2015b)是通过随意选择生成值或真实的数据值作为输入以减小训练时和测试时看到的输入之间的差别。这种方法利用了课程学习策略,逐步使用更多生成值作为输入。
图1
说明:导师驱动过程的示意图。导师驱动过程是一种训练技术,适用于输出与下一时间步的隐藏状态存在连接的 RNN。(左) 训练时,我们将训练集中正确的输出 y(t)反馈到 h(t+1)。(右) 当模型部署后,真正的输出通常是未知的。在这种情况下,我们用模型的输出 o(t)近似正确的输出 y(t),并反馈回模型。
领取专属 10元无门槛券
私享最新 技术干货