开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

我使用LSTM预测金价，但输出总是相同的值。有人知道问题出在哪里吗？

问题出在模型训练过程中。LSTM是一种递归神经网络，用于处理序列数据，如时间序列数据。在使用LSTM预测金价时，输出总是相同的值可能是由于以下原因导致的：

数据预处理问题：首先，需要确保输入数据的正确性和完整性。检查数据是否存在缺失值、异常值或重复值。另外，对于时间序列数据，还需要考虑数据的平稳性和趋势性。
数据集划分问题：在使用LSTM进行预测时，需要将数据集划分为训练集、验证集和测试集。确保划分比例合理，并且在训练过程中使用正确的数据集。
模型参数设置问题：LSTM模型有许多可调节的参数，如隐藏层大小、学习率、迭代次数等。需要仔细调整这些参数，以获得更好的预测结果。
模型训练问题：LSTM模型的训练过程可能存在问题。可能是由于训练数据量不足，导致模型无法捕捉到数据的复杂关系。此外，还需要确保正确选择损失函数和优化算法，并进行适当的模型正则化，以防止过拟合。

解决这个问题的方法包括：

数据检查和预处理：仔细检查数据集，确保数据的正确性和完整性。处理缺失值、异常值和重复值。对于时间序列数据，可以进行平稳性检验和趋势分析，对数据进行合适的转换或差分操作。
数据集划分：正确划分训练集、验证集和测试集，通常可以采用70%的数据作为训练集，20%的数据作为验证集，10%的数据作为测试集。
参数调整：尝试不同的模型参数组合，如隐藏层大小、学习率、迭代次数等，通过交叉验证或网格搜索等方法找到最佳参数组合。
增加训练数据量：如果训练数据量较少，可以尝试增加数据量，或者使用数据增强技术来扩充数据集，以提高模型的泛化能力。
模型改进：考虑使用其他类型的神经网络模型，如GRU、Transformer等，或者尝试集成多个模型，以提高预测性能。
调整损失函数和优化算法：尝试不同的损失函数和优化算法，如均方误差（MSE）、平均绝对误差（MAE）、Adam优化算法等，以获得更好的训练效果。
模型正则化：使用正则化技术，如L1正则化、L2正则化、Dropout等，以防止模型过拟合。

对于腾讯云相关产品和产品介绍链接地址，可以参考腾讯云官方文档或咨询腾讯云的技术支持团队，以获取更详细的信息。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

「LSTM之父」 Jürgen Schmidhuber访谈：畅想人类和 AI 共处的世界 | WAIC 2019

Schmidhuber 教授的语言风格也温文尔雅，不疾不徐，娓娓道来。提问：有人把 LSTM 网络称作「机器学习界的 AK-47」，因为它简单，而且可以用于很多不同的任务。您知道这个说法吗？...因为人们知道亚马逊之类的大公司会做这样的事情、会存储语音，所以他们会担心、会犹豫。我自己就不使用谷歌的语音识别，即便它就是基于 LSTM 的；不过使用它的人也有很多。...Siri 最初使用的也不是 LSTM，后来切换到 LSTM 的时候也遇到了训练数据不足的问题。但现在所有人都在用 LSTM了。以及还有一个因素是训练数据有多少。...我想问大家一个问题，Alexa、Echo 之类的设备很流行，中国有类似的吗？现场记者七嘴八舌地：小米、百度、天猫 Schmidhuber：它们好用吗？...不过，人们发现火带来的好处要比麻烦多多了，所以人们一直在提升改进使用火的技术。这样人类才一直走到了今天。提问：现在的人工智能有意识了吗？和人类的意识相同吗？

7712 0

进行机器学习和数据科学常犯的错误

根据这些图，最有趣的问题是:你看到了你期望看到的吗?回答这个问题将帮助您发现数据中的洞察力或错误。为了获得灵感并理解什么图最有价值，我经常参考Python的seaborn图库。...在租金价格的一文中，我绘制了每个连续特征的直方图，我希望在没有账单和总面积的情况下，租金的分布会有一条长长的右尾。 ? 连续变量的直方图盒箱图帮助我看到每个特性的离群值的数量。...我需要标准化变量吗? 标准化使所有连续变量具有相同的规模，这意味着如果一个变量的值从1K到1M，另一个变量的值从0.1到1，标准化后它们的范围将相同。...标准化的另一个原因是，如果您或您的算法使用梯度下降，则梯度下降会随着特征缩放而快速收敛。 5. 我需要推导目标变量的对数吗? 我花了一段时间才明白没有一个普遍的答案。...链接的博客文章和SHAP NIPS文章的作者提出了一种计算特征重要性的新方法，该方法既准确又一致。这使用了shap Python库。 SHAP值表示特征对模型输出改变的重要性。

1.1K2 0

循环神经网络（RNN）简易教程

在哪里可以使用RNN？ RNN是什么以及它是如何工作的？...假设我们知道我们是在下午开会，并且这些信息一直存在于我们的记忆中，那么我们就可以很容易地预测我们可能会在午餐时见面。...RNN被称为循环，因为它们对序列中的每个元素执行相同的任务，并且输出元素依赖于以前的元素或状态。这就是RNN如何持久化信息以使用上下文来推断。 ? RNN是一种具有循环的神经网络 RNN在哪里使用？...任何时间步的输出都取决于当前输入以及以前的状态。与其他对每个隐藏层使用不同参数的深层神经网络不同，RNN在每个步骤共享相同的权重参数。...为了解决消失梯度问题，常用的方法是使用长短期记忆（LSTM）或门控循环单元（GRU）。在我们的消息示例中，为了预测下一个单词，我们需要返回几个时间步骤来了解前面的单词。

1.2K1 0

盘点金融领域里常用的深度学习模型

虽然金融是计算密集型最多的领域，但广泛使用的金融模型：监督和无监督模型、基于状态的模型、计量经济学模型甚至随机模型都受到过度拟合和启发式问题带来的影响，抽样结果很差。...收益预测以预测每日黄金价格的抽样问题为例，我们首先看看传统的方法。...这个模型一旦被识别后就可以从时间序列的过去值及现在值来预测未来值。现代统计方法、计量经济模型在某种程度上已经能够帮助企业对未来进行预测。...大数据深度回归模型如果在数据上使用简单的深度回归模型，使用相同的输入，会得到更好的结果，如下图所示： ?...相比较其他深度、前馈神经网络，卷积神经网络需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。修改我的架构，使用卷积神经网络来解决同一个问题，得到结果如下图所示： ?

1.6K12 0

我PUA你了么

很多人都在吐槽这件事，只是没想到有一天有人会说我也会PUA别人，想想也蛮有意思的。 01 事情是这样发生的。...当我把这种思路和边上的小伙伴沟通了之后，他说：你这不就是在PUA吗？我一个测试，为什么要把产品质量当成自己的义务？如果产品没规划好需求，开发的能力不行，没有自测，难道也是测试的问题？...赶紧百度了下什么是职场PUA，发现有以下几种情况算是职场PUA：画饼、美化打击、付出收入不对等、制造心理落差等等，好像也靠不上啊，不就是对测试人员的要求高一点吗？再想想，大概知道问题出在哪里了。...如果从这个角度上看，有些人肯定会认为我是PUA了他。但真的是这样的吗？ 03 我只是想把事做得更好而已，有错吗？上级对自己的要求多一些，高一些，真的是在PUA我吗？想了很久，终于想通问题出在哪里了。...问题就在于：是谁来做PUA这个动作！！如果是上级强制要求测试来做质量内建，做不好就滚蛋，那这个就是在PUA了。但如果是我自己想把事做得更好些，让团队质量更好些，就不算是PUA了吧。

3331 0

使用LSTM预测比特币价格

考虑到近期对比特币货币的泡沫的讨论，我写了这篇文章，主要是为了预测比特币的价格和张量，我使用一个不只是看价格还查看BTC交易量和货币（在这种情况下为美元）的多维LSTM神经网络，并创建一个多变量序列机器学习模型...我们用以类似的方式进行测试，使用相同的发生器并训练和利用eras predict_generator（）函数。在预测我们的测试集时，我们需要添加的唯一额外的事情是迭代发生器并分离出x和y输出的输出。...而不仅仅是波动，而且我们也可以通过扩张它来预测市场环境，使我们能够了解我们目前所在的市场环境。哪里有用呢？很多不同的策略（我不会去这里说）分别在不同的市场环境中运作良好。...虽然这更多是传统市场的一般投资方式，但同样适用于比特币市场。所以你可以看到，预测比特币的长期价格目前相当的困难，没有人可以只是通过时间序列数据技术做到，因为有很多因素加入了价格变动。...在这样的数据集上使用LSTM神经网络的另一个问题是我们将整个时间序列数据集作为一个固定的时间序列。也就是说，时间序列的属性在整个时间内都是不变的。

1.3K7 0

LSTM生成尼采风格文章

一种朴素的方法是贪婪采样--总是选择最可能的下一个字符。但是这种方法导致重复的，可预测的字符串看起来不连贯。...从模型的softmax输出中概率地采样是巧妙的：它允许在某些时候对不太可能的字符进行采样，产生更有趣的句子，并且有时通过提出在训练数据中未发生的新的，逼真的单词来显示模型创造力。...因为我们是生成数据有趣程度的终极判断，所以相互作用是高度主观的，并且不可能事先知道最佳熵点在哪里。...给定温度值，通过以下列方式对其进行重新加权，从原始概率分布（模型的softmax输出）计算新的概率分布。...低temperature值导致极其重复且可预测的文本，但局部结构非常逼真：特别是，所有单词都是真正的英语单词。

1.5K4 0

如何用LSTM自编码器进行极端事件预测？（含Python实现）

最后，他们能够针对不同的位置（城市）预测需求，优于传统的预测方法。对于这个问题，uber使用了他们的内部数据，即不同城市的出行数据，其包含了一些额外特征：天气信息、城市等级信息。...模型 ---- 为了解决我们的预测任务，我们复制了Uber的一个新结构模型，它时一个但模型却为我们提供了复杂的预测功能。...为了最后的评估，我们必须迭代调用上边的函数，存储它们的结果。我也可以计算出在每一次迭代中的预测分值（我选择的是均绝对值误差）。...存储每一次预测分值之后，我们可以计算均值，标准差，以及相关均方绝对值误差。预测和结果 ---- 我们对我们的“竞争模型”复制了同样的过程，只使用lstm预测网络。...在不确定性程度相同的情况下，我们的预测精度最终提高了5%。我们可以断言，我们的lstm自动编码器是一个从时间序列中提取重要的未知特征的好武器。

3.2K6 0

探索LSTM：基本概念到内部结构

不要一直使用完整的长期记忆，而要知道哪些部分是重点。这样就成了一个长短期记忆网络（LSTM）。 RNN会以相当不受控制的方式在每个时间步长内重写自己的记忆。...可以跟踪子程序和嵌套级别：如果语句循环总是被关闭的话，缩进处理是一个不错的选择。它甚至知道如何创建测试。此模型到底是怎样做到上面这些功能的呢？我们可以看几个隐藏状态。...还有一件有趣的事情，工作记忆看起来像一个长期记忆的增强版，这在一般情况下是正常的吗？答案是肯定的，这也和我们期望的完全一样。因为长期记忆被双曲正切激活函数限制了输出内容。...这个神经元很有意思，因为它只有在读取定界符Y时才可以激活，但它仍然试图编码目前在序列中看到的a。这很难从图中看出，但当读取到Y属于有相同数量的a的序列时，所有的元胞状态都是几乎相同的。...这也就是选择性计数神经元所做的：计算a和b的值，但忽略不相关的x。 ? 令人惊讶的是，我们的LSTM方程中没有任何地方指定了输入、遗忘和输出门的工作方式，神经网络会自学什么是最好的。

1.1K5 1

Sequence to Sequence Learning with Neural Networks论文阅读

,y_T$ $$ \begin{align*} h_t&=\sigma(W^{hx}x_t+W^{hh}h_{t-1})\\ y_t&=W^{yh}h_t \end{align*} $$ 只要提前知道输入和输出序列长度相同...,y_T)$是相应的输出序列，并且长度$T$和$T'$允许不相同。LSTM首先获得最后一个隐藏状态给出的固定维度向量$v$。然v用一个标准的LSTM-LM公式计算$y_1,...,y_T$的概率。...同时需要在每个句子的结尾用""来标识，这使得模型能够定义所有可能长度序列的分布但作者的实际模型与以上描述有三个方面不同使用了两个不同的LSTM，一个用于输入序列，一个用于输出序列。...因此，反向传播能够更轻松地在源序列和目标序列中建立联系，并且改善整体的性能表现这里的"最小时间延迟"，我个人深有体会，不是在NLP领域，而是我自己用LSTM做时间序列预测的时候发现的一个问题，预测值总是比真实值看上去要延迟...我们相信一个标准的RNN在逆转源序列后能够更加容易被训练个人总结这篇文章在当年看来可能非常惊艳，但是我读完这盘文章之后很无感，"不就是两个LSTM拼接吗？"。

1.4K2 0

2022年深度学习在时间序列预测和分类中的研究进展综述

比如说informer准确预测河流流量方面遇到了巨大的问题，与LSTM或甚至是普通的Transformer相比，它的表现通常很差。...一个复杂的模型最初可能并不总是优于简单模型，但需要在论文中明确指出这一点，而不是掩盖或简单地假设没有这种情况。...是所有的Transformer都有固有的缺陷，还是只是当前的机制?我们是否应该回到lstm、gru或简单的前馈模型这样的架构?这些问题我都不知道答案，但是这篇论文的整体影响还有待观察。...我认为还需要进一步了解内部表示和实际预测输出之间的脱节。另外就是正如作者所建议的那样，改进位置嵌入可以在提高整体性能方面发挥关键作用。...虽然有人可能会对这个模型持怀疑态度，特别是关于第二篇论文的观点，但这个评估是相当严格的。Neurips-TS是一个最近创建的，专门用于提供更严格的异常检测模型评估的数据集。

1.9K4 1

视频 | 如何用 AI 预测股价？

LSTM 我们很容易按照先后回想起歌词，但是我们能够倒着把它唱出来吗？不行。因为我们是按照序列的方式来学习这些歌词的，这是有条件的记忆。...但是，我们还有一个问题，先来看一下这一段文字，它以“我希望先辈会注意到我”开头，以“她是我的朋友，他是我的先辈”结尾。...每个单元有一个输入门，一个输出门和一个内部状态，内部状态跨过时间步向自身输入常量权重1，这就解决了消失的梯度问题，因为在反向传播过程中任何经过这个自循环单元的梯度都被永久保存下来了，因为误差乘以1值仍然是一样的...我们的网络得到的结果就能记住长期依赖（关系），至于LSTM层，把我们模型的输入层设置为1，比如说在这一层我们需要50个神经单元，把返回序列设为真意味着这一层的输出总是会输入到下一层，它所有的激活函数可以被看做是一系列的预测...我们将用线性密度层（linear denser layer）把来自这个预测向量的数据相加得到一个单一值，然后我们可以用一个常用的损失函数-均方误差来编译我们的模型，并且使用梯度下降作为我们的优化程序，设为

8815 0

Google研究员Ilya Sutskever：成功训练LDNN的13点建议

当我知道这结论时是相当的惊讶，所以我尝试创建一个小型神经网络然后训练它使之对106位数字进行排序，其执行结果与结论高度一致！而如果使用布尔电路对NN位数排序，在相同条件下，这是实现不了的。...最后的这点非常重要，以下继续深入说明。我们知道机器进行算法学习是持续性的：也就是说，只要提供充足的数据，它们就能把问题解决。但持续性往往意味着指数级的大数据量。...现在，我们知道奇偶问题是非常不稳定的，它缺乏任何的线性关联：每个线性输入与输出是不关联的，这对于神经网络是个问题，因为在初始化时神经网络是高度线性的（难道说我需要使用更大的初始权值？...调整超级参数（比如学习率和初始化）是非常有价值的，因此好刀要用在刀刃上。如果正在使用LSTM同时想在具有大范围依赖的问题上训练它们，那么应该将LSTM遗忘关口的偏差初始化为较大的值。...训练10个神经网络，然后对其预测数据进行平均。该做法虽然简单，但能获得更直接、更可观的性能提升。有人可能会困惑，为什么平均会这么有效？

4106 0

LSTM 为何如此有效？这五个秘密是你要知道的

人们已经提出了许多技术来缓解此问题，但还无法完全消除该问题，这些技术包括：仔细地初始化参数使用非饱和激活函数，如ReLU 应用批量归一化、梯度消失、舍弃网络细胞等方法使用经过时间截断的反向传播...秘密5 ：LSTM使用“细胞状态”保持长期记忆现在，你知道最近发生的事情会如何影响你的状态。接下来，是时候根据新的理论来更新你对所处情况的长期判断了。...当出现新值时，LSTM 再次通过使用门来决定如何更新其内存。门控的新值将添加到当前存储器中。这种加法运算解决了简单RNN的梯度爆炸或梯度消失问题。 LSTM 通过相加而不是相乘的方式来计算新状态。...下图进一步说明了双向 LSTM。底部的网络接收原始顺序的序列，而顶部的网络按相反顺序接收相同的输入。这两个网络不一定完全相同。重要的是，它们的输出被合并为最终的预测。 ? 想要知道更多的秘密？...-44e9eb85bf21 下面，我将提供使用Python实践实施LSTM网络的方法。

1.3K3 0

【让调参全部自动化】自动机器学习，神经网络自主编程（代码与诀窍）

当然，两者有所重叠，但机器学习只是数据科学中众多工具的一种，而且机器学习用在预测很好，但描述性分析等任务里根本不会用到机器学习。不过，就算是预测任务，数据科学涵盖的也不仅仅是实际的预测模型。...我们的神经网络需要做的事情是，在知道已经输入的 n 个字符（而不是仅仅前一个字符）后，能够预测接下来要输入的字符是什么。比方说，如果我告诉网络，最后一个输入的字符是“e”，那么进化的可能有很多种。...每个单元（用红色表示）不仅连接到输入，还与时刻 t-1 的单元相连。为了解决我们的问题，我们将使用 LSTM（长短时内存）单元。开始建模！ ? 下面我们将详细介绍这篇文章的 5 个主要部分。...最后，我们定义一个占位符，用于将来 dropout 概率的值。 2）LSTM 输出 ?...我们使用 tf.one_hot 表示输出与输入有相同的编码。然后，将数组 (tf.reshape ()) 调整到与线性输出 tf.matmul(..) + b 相同的维度。

1.8K4 0

理解 LSTM 网络

长期依赖问题 RNN 的吸引力之一是它们可能能够将先前的信息与当前任务联系起来，例如使用先前的视频帧可能会告知对当前帧的理解。如果 RNN 可以做到这一点，它们将非常有用。但是他们可以吗？这取决于。...在这种情况下，相关信息与需要它的地方之间的差距很小，RNN 可以学习使用过去的信息。但也有我们需要更多上下文的情况。考虑尝试预测文本中的最后一个词“我在法国长大......我会说流利的法语。” ...让我们回到我们的语言模型示例，该示例试图根据之前的所有单词预测下一个单词。在这样的问题中，细胞状态可能包括当前主语的性别，以便可以使用正确的代词。当我们看到一个新主题时，我们想忘记旧主题的性别。...长短期记忆的变体到目前为止，我所描述的是一个非常正常的 LSTM。但并非所有 LSTM 都与上述相同。事实上，似乎几乎每篇涉及 LSTM 的论文都使用了一个略有不同的版本。...LSTM 是我们可以用 RNN 完成的一大步。很自然地想知道：还有另一个大步骤吗？研究人员普遍认为：“是的！还有下一步，就是注意力！”

6192 0

ChatGPT危了！「注意力公式」8年神秘bug首曝光，Transformer模型恐大受冲击

你能看到这个公式的差一错误吗？要知道，注意力公式是现代人工智能的核心等式，但其中有一个bug在上周让作者Evan Miller抓狂。由此，Miller决定就这个漏洞和修复建议写篇博文。...不过，作者强调这只是一篇观点文章，但如果网上有人想做一些实验来证明这是对的，可以一起合作验证。全与「离群值」有关首先，先谈谈为什么差一错误很重要。ChatGPT工作得很好，有什么问题吗？...这正是Transformer实际在做的事情：它将输入向量转换为相同大小的输出向量，这个最终的6KB输出向量需要编码绝对一切，以预测当前词语之后的词语。...这是合理的，但每个人都知道它并非是完全正确的。因为没有模型将那些输出概率视为正确，与之相反，每个实现和其他模型都使用采样机制来掩盖softmax过度表示低概率的事实。这一切都很好，也可行。...使用softmax的问题在于，它迫使每个注意力头都要进行注释，即使它没有任何信息可以添加到输出向量中。在离散选择之间使用softmax是很好的；但作为可选注释（即输入到加法中）使用它，就有点不太好。

1792 0

【睡前碎语】什么是好的技术

不过，了解网络的同学应该都知道，还有一个叫OSI的七层模型，从纯学术的角度说，OSI的七层模型要远比TCP/IP的四层模型先进。然而，现在我们最常使用的，不是OSI，而是TCP/IP。...所以有人又说，这是因为Android出在前面，微软一步慢步步慢，虽然后面也做了很多努力，但终究是无力改变历史。谷歌抢先发力，先是Chrome后是Android，一下从新秀跻身巨头。...在很多人眼里，在位优势这种解释框架是很有说服力的。不过，如果我们的视野再广阔一点，就看到更多先驱变成先烈的例子。远的不说，还记得我们的共享单车吗，黄的那辆现在在哪里呢？...不过，在后面一直追也真的很累，我以前有过一个想法：能不能提前预测安全技术的未来发展呢？如果能，那“什么是好的技术”就很好回答了：符合未来发展方向的技术当然就是好的技术。...不过，需要首先回答另一个问题：业界下一个“爆点”在哪里？这是个技术问题，又不是个技术问题。

4461 0

. | 预测肽特性的模块化深度学习框架

最后⼀个 LSTM 层的输出在肽⻓度维度上求和并由两个 FC 层，输出⼤⼩分别为 64和1。模型参数总数为 708,224。...最后⼀个 LSTM 层的输出在肽⻓度维度上求和并由输出⼤⼩为 64 和 1 的两个 FC 层处理。模型参数总数为 713,452。...最后⼀个 LSTM 层的输出在序列⻓度维度上求和并由两个线性处理输出⼤⼩为 64 和 1 的层。S 形激活函数应⽤于最后⼀个线性层以获得概率。模型参数总数为 1,669,697。...结果图3 各个训练阶段在不同测试数据集上的MS2预测精度 MS2预测精度如图3所示，测试模型所用的数据集名称在x轴上。性能由“PCC90”(PCC值大于0.9的百分比)来评估。...尽管AlphaPeptDeep功能强大且易于使用，但传统的机器学习问题，如框架中的过拟合等，仍然需要用户自行解决。但是，模型商店为任何属性预测问题提供了基线模型。

6021 0

MetaMind深度解读NLP研究：如何让机器学习跳读

对文本的深度学习大多数深度学习方法需要浮点数作为输入，如果你没使用过文本，你可能会疑问：我怎么使用一段文本来进行深度学习？对于文本，其核心问题是在给定材料的长度的情况下如何表征任意大量的信息。...你也知道，不一定总是需要使用有真实世界数据的 LSTM，用低成本的词袋（BoW）或许也没问题。当然，顺序不可知的词袋（BoW）会将大量消极词汇错误分类。...在来自词袋模型上的概率操作时，我们基于不变量做决策，这个不变量是指当词袋系统遭到质疑时，更强大的 LSTM 工作地更好。但是情况总是如此吗？ ?...学习跳读，配置当 BoW 遭受质疑时我们并不总是应该使用 LSTM。当 LSTM 也犯错并且我们要保留珍贵的计算资源时，我们可以使词袋模型理解吗？...决策网络的表现如何？让我们从观察决策网络的预测开始。 ? 数据点和之前使用词袋模型时的 T-SNE 图相同。绿色点代表使用词袋预测的句子，黄色点代表 LSTM。

6779 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭