一般来说,我们可以将慢原则应用于可以 使用梯度下降训练的任何可微分模型。为了引入慢原则,我们可以通过向代价函数添 加以下项
?...其中 λ 是确定慢度正则化的强度的超参数项,t 是样本时间序列的索引,f 是需要正 则化的特征提取器,L 是测量 f(x(t)) 和 f(x(t+1)) 之间的距离的损失函数。...特征具有单位方 差的约束对于防止所有特征趋近于 0 的病态问题是必要的。与PCA类似,SFA特征 是有序的,其中学习第一特征是最慢的。要学习多个特征,我们还必须添加约束
?...我们推测,或许慢度先验是太过强势,并且,最好添 加这样一个先验使得当前步骤到下一步的预测更加容易,而不是加一个先验使得特 征应该近似为一个常数。对象的位置是一个有用的特征,无论对象的速度是高还是 低。...但慢原则鼓励模型忽略具有高速度的对象的位置。
内容摘自:https://github.com/exacity/deeplearningbook-chinese/releases/ 13.3