首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >为什么缩放数据在神经网络(LSTM)中非常重要

为什么缩放数据在神经网络(LSTM)中非常重要
EN

Stack Overflow用户
提问于 2017-10-11 11:19:31
回答 2查看 7.6K关注 0票数 9

我的硕士论文是关于如何在时间序列中应用LSTM神经网络的。在我的实验中,我发现缩放数据会对结果产生很大的影响。例如,当我使用tanh激活函数,值范围在-1到1之间时,模型似乎收敛得更快,验证误差在每个时代之后也不会有明显的跳跃。

有人知道对此有什么数学解释吗?或者是否有任何文件已经解释过这种情况?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-10-11 12:57:27

你的问题让我想起了我们班使用的一张图片,但你可以在3:02从这里上找到一张类似的图片。

在上面的图片中,你可以明显地看到左边的路径比右边的长得多。将缩放应用到左侧,使之变为右侧。

票数 11
EN

Stack Overflow用户

发布于 2017-10-11 11:40:06

也许关键是非线性。我的方法来自混沌理论(分形,多重分形,.)而非线性动力系统的输入范围和参数值对系统行为有很大的影响。这是由于非线性,在tanh情况下,区间-1,+1中的非线性类型不同于其它区间,即在[10,无穷大]范围内。一个常数。

任何非线性动力系统只在一个特定的范围内对参数和初始值都有效,见逻辑映射。根据参数值和初始值的范围,logistic映射的行为是完全不同的,即对初始条件的敏感性可以看作是非线性自引用系统。

一般情况下,非线性动力系统与神经网络有一些显著的相似之处,即非线性系统辨识中Volterra级数模型的衰落记忆性质和递归神经网络中的消失梯度

强混沌系统对初始条件具有敏感性,由于记忆的衰落,Volterra级数和RNNs都不可能再现这种严重的非线性行为。消失梯度

因此,数学背景可能是非线性在特定的间隙范围内更“活跃”,而线性在任何地方都是同样活跃的(它是线性的或接近常数)。

在RNN和单分形/多重分形的上下文中,有两个不同的含义。这尤其令人困惑,因为RNNs与非线性自引用系统有着很深的联系。

  • 在RNNs的上下文中,缩放是指仿射变换意义下输入或输出值的范围的限制。
  • 在单分形/多重分形尺度的背景下,非线性系统的输出具有一种特殊的结构,即在单分形的情况下具有尺度不变量,在自仿射分形的情况下具有自仿射.其中的比例相当于“缩放级别”。

RNNs和非线性自引用系统之间的联系在于它们都是非线性的和自引用的。

一般来说,对于初始条件的敏感性(这与对RNNs中标度的敏感性有关)和结果结构中的尺度不变性(输出)只出现在非线性自引用系统中。

以下是对非线性自引用系统输出的多重分形和单分形标度的一个很好的总结(不要与RNNs的输入输出标度相混淆):http://www.physics.mcgill.ca/~gang/eprints/eprintLovejoy/neweprint/Aegean.final.pdf

本文研究了非线性系统与RNN的直接联系:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4107715/ --随机矩阵非线性系统建模:回波状态网络的修正

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46686924

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档