文章/答案/技术大牛

发布

社区首页 >问答首页 >预测序列数据分析中的下一个数

问预测序列数据分析中的下一个数
EN

Data Science用户

提问于 2018-12-14 14:05:22

回答 1查看 3.6K关注 0票数 2

我是一个机器学习新手，我正在做一个项目，给我一个整数序列，所有这些都在0到70之间。我的目标是预测序列中的下一个整数，给定相同序列中的前5个整数。关于整数序列本身没有更多的信息(例如，序列是如何获得的，等等)。

以下是我尝试过的事情。

首先想到的是使用具有5个输入时间步骤和一个输出的LSTM回归模型(对应于序列中的下一个整数--在Keras中，这将是return_sequences=False)。我传递了5个以前的整数作为输入。这导致了模型几乎一直预测平均(~30)。
我尝试了(1)上面的模型，但是有更多的输入时间步骤(比如100)，但仍然没有改进。
然后我尝试(1)和(2)，但这次使用连续整数之间的差异作为输入，并试图预测序列中下一个整数的差异。这样做的结果仍然很糟糕。
然后，我尝试了一个LSTM分类模型，对输入和输出进行了一次热编码，因为我知道序列中的所有整数都在0到70之间。再说一次，没有改善。
然后，我尝试了一个seq2seq (编码器-解码器) LSTM模型，它在编码器中有5个输入，在解码器中有5个输出，并将正确的输出输入到解码器(教师强制)。但结果还是很糟糕。

在这一点上，我开始怀疑我是否能够对给定的数据训练一个模型，以及给定的数据是否只是一堆随机整数。

我寻找统计测试来确定数据是否是随机的，并发现了关于熊猫自相关图的信息。这是在连续整数之间的差异上绘制的图形(使用实际整数本身绘制时看起来类似)。

据我所知，由于数值非常接近于零，这意味着数据是随机的。是这样吗？

我还使用了状态模型图_acf“，下面是我得到的连续整数之间的差值的图。

当滞后值为1时，我发现两者之间存在一定的负相关。为什么在使用熊猫的autocorrelation_plot()的情节中没有出现这种情况呢？

我也尝试过建立一个AR (自动回归)模型，但是结果还是很糟糕。

序列中整数的直方图似乎也表明整数是随机的(除了一些较高的整数外，所有值的计数都差不多)。

我是在浪费时间去建立机器学习模型来预测序列中的下一个整数吗？

sequence-to-sequence

machine-learning

time-series

lstm

rnn

回答 1

Data Science用户

发布于 2018-12-14 14:26:14

有趣的问题。熊猫自相关图显示数据是随机的。

你对消息来源了解多少？这序列真的是随机的吗？

你看过这些数据并绘制了整数外观计数的直方图吗？他们的出现是一致的还是有些比其他的更频繁？

我认为你应该尝试的一件事是重新制定你的LSTM模型。我不认为这是一个回归问题，即使目标是一个整数。这是一个有70个类的分类问题。试着用这种方法处理它，并使用一个绝对的交叉熵损失函数。在这种情况下，1.5%的准确率将代表随机猜测。这个模型还能做得更好吗？

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/42618

复制

相似问题

问预测序列数据分析中的下一个数
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问预测序列数据分析中的下一个数EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问预测序列数据分析中的下一个数
EN