我的硕士论文是关于如何在时间序列中应用LSTM神经网络的。在我的实验中,我发现缩放数据会对结果产生很大的影响。例如,当我使用tanh激活函数,值范围在-1到1之间时,模型似乎收敛得更快,验证误差在每个时代之后也不会有明显的跳跃。
有人知道对此有什么数学解释吗?或者是否有任何文件已经解释过这种情况?
发布于 2017-10-11 12:57:27
发布于 2017-10-11 11:40:06
也许关键是非线性。我的方法来自混沌理论(分形,多重分形,.)而非线性动力系统的输入范围和参数值对系统行为有很大的影响。这是由于非线性,在tanh情况下,区间-1,+1中的非线性类型不同于其它区间,即在[10,无穷大]范围内。一个常数。
任何非线性动力系统只在一个特定的范围内对参数和初始值都有效,见逻辑映射。根据参数值和初始值的范围,logistic映射的行为是完全不同的,即对初始条件的敏感性可以看作是非线性自引用系统。
一般情况下,非线性动力系统与神经网络有一些显著的相似之处,即非线性系统辨识中Volterra级数模型的衰落记忆性质和递归神经网络中的消失梯度。
强混沌系统对初始条件具有敏感性,由于记忆的衰落,Volterra级数和RNNs都不可能再现这种严重的非线性行为。消失梯度
因此,数学背景可能是非线性在特定的间隙范围内更“活跃”,而线性在任何地方都是同样活跃的(它是线性的或接近常数)。
在RNN和单分形/多重分形的上下文中,有两个不同的含义。这尤其令人困惑,因为RNNs与非线性自引用系统有着很深的联系。
RNNs和非线性自引用系统之间的联系在于它们都是非线性的和自引用的。
一般来说,对于初始条件的敏感性(这与对RNNs中标度的敏感性有关)和结果结构中的尺度不变性(输出)只出现在非线性自引用系统中。
以下是对非线性自引用系统输出的多重分形和单分形标度的一个很好的总结(不要与RNNs的输入输出标度相混淆):http://www.physics.mcgill.ca/~gang/eprints/eprintLovejoy/neweprint/Aegean.final.pdf
本文研究了非线性系统与RNN的直接联系:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4107715/ --随机矩阵非线性系统建模:回波状态网络的修正
https://stackoverflow.com/questions/46686924
复制相似问题