首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >预测序列数据分析中的下一个数

预测序列数据分析中的下一个数
EN

Data Science用户
提问于 2018-12-14 14:05:22
回答 1查看 3.6K关注 0票数 2

我是一个机器学习新手,我正在做一个项目,给我一个整数序列,所有这些都在0到70之间。我的目标是预测序列中的下一个整数,给定相同序列中的前5个整数。关于整数序列本身没有更多的信息(例如,序列是如何获得的,等等)。

以下是我尝试过的事情。

  1. 首先想到的是使用具有5个输入时间步骤和一个输出的LSTM回归模型(对应于序列中的下一个整数--在Keras中,这将是return_sequences=False)。我传递了5个以前的整数作为输入。这导致了模型几乎一直预测平均(~30)。
  2. 我尝试了(1)上面的模型,但是有更多的输入时间步骤(比如100),但仍然没有改进。
  3. 然后我尝试(1)和(2),但这次使用连续整数之间的差异作为输入,并试图预测序列中下一个整数的差异。这样做的结果仍然很糟糕。
  4. 然后,我尝试了一个LSTM分类模型,对输入和输出进行了一次热编码,因为我知道序列中的所有整数都在0到70之间。再说一次,没有改善。
  5. 然后,我尝试了一个seq2seq (编码器-解码器) LSTM模型,它在编码器中有5个输入,在解码器中有5个输出,并将正确的输出输入到解码器(教师强制)。但结果还是很糟糕。

在这一点上,我开始怀疑我是否能够对给定的数据训练一个模型,以及给定的数据是否只是一堆随机整数。

我寻找统计测试来确定数据是否是随机的,并发现了关于熊猫自相关图的信息。这是在连续整数之间的差异上绘制的图形(使用实际整数本身绘制时看起来类似)。

据我所知,由于数值非常接近于零,这意味着数据是随机的。是这样吗?

我还使用了状态模型图_acf“,下面是我得到的连续整数之间的差值的图。

当滞后值为1时,我发现两者之间存在一定的负相关。为什么在使用熊猫的autocorrelation_plot()的情节中没有出现这种情况呢?

我也尝试过建立一个AR (自动回归)模型,但是结果还是很糟糕。

序列中整数的直方图似乎也表明整数是随机的(除了一些较高的整数外,所有值的计数都差不多)。

我是在浪费时间去建立机器学习模型来预测序列中的下一个整数吗?

EN

回答 1

Data Science用户

发布于 2018-12-14 14:26:14

有趣的问题。熊猫自相关图显示数据是随机的。

你对消息来源了解多少?这序列真的是随机的吗?

你看过这些数据并绘制了整数外观计数的直方图吗?他们的出现是一致的还是有些比其他的更频繁?

我认为你应该尝试的一件事是重新制定你的LSTM模型。我不认为这是一个回归问题,即使目标是一个整数。这是一个有70个类的分类问题。试着用这种方法处理它,并使用一个绝对的交叉熵损失函数。在这种情况下,1.5%的准确率将代表随机猜测。这个模型还能做得更好吗?

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/42618

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档