我是一个机器学习新手,我正在做一个项目,给我一个整数序列,所有这些都在0到70之间。我的目标是预测序列中的下一个整数,给定相同序列中的前5个整数。关于整数序列本身没有更多的信息(例如,序列是如何获得的,等等)。
以下是我尝试过的事情。
在这一点上,我开始怀疑我是否能够对给定的数据训练一个模型,以及给定的数据是否只是一堆随机整数。
我寻找统计测试来确定数据是否是随机的,并发现了关于熊猫自相关图的信息。这是在连续整数之间的差异上绘制的图形(使用实际整数本身绘制时看起来类似)。
据我所知,由于数值非常接近于零,这意味着数据是随机的。是这样吗?
我还使用了状态模型图_acf“,下面是我得到的连续整数之间的差值的图。
当滞后值为1时,我发现两者之间存在一定的负相关。为什么在使用熊猫的autocorrelation_plot()的情节中没有出现这种情况呢?
我也尝试过建立一个AR (自动回归)模型,但是结果还是很糟糕。
序列中整数的直方图似乎也表明整数是随机的(除了一些较高的整数外,所有值的计数都差不多)。
我是在浪费时间去建立机器学习模型来预测序列中的下一个整数吗?
发布于 2018-12-14 14:26:14
有趣的问题。熊猫自相关图显示数据是随机的。
你对消息来源了解多少?这序列真的是随机的吗?
你看过这些数据并绘制了整数外观计数的直方图吗?他们的出现是一致的还是有些比其他的更频繁?
我认为你应该尝试的一件事是重新制定你的LSTM模型。我不认为这是一个回归问题,即使目标是一个整数。这是一个有70个类的分类问题。试着用这种方法处理它,并使用一个绝对的交叉熵损失函数。在这种情况下,1.5%的准确率将代表随机猜测。这个模型还能做得更好吗?
https://datascience.stackexchange.com/questions/42618
复制相似问题