我正在为我们的数据中心建立一个预测网络流量的模型。让我先描述一下我的数据集。在这个时候,我们有90天的模型,在每一天,我们记录网络流量每分钟。这些数据也有季节性模式:网络流量在夜间波动和保持,上午减少,下午增加(正如我所观察到的,这种模式发生在数据集中的所有数据上)。
我现在想要的是一个模型,用于预测未来几分钟内的网络流量(例如25分钟),因为所有前几分钟的数据都是给定的。新的预测值将用于下一次预测。例如,分钟I的值将被添加到具有特定长度的数据窗口,以预测分钟i+1的值。
此时,我已经尝试了LSTM,我使用的特性是一天中的分钟和该分钟内的网络流量(在输入到LSTM网络之前进行规范化)。然而,我的问题是:我的模型可能会捕捉错误的数据模式:当下午网络流量增加时,我的模型预测它会减少。我尝试过不同的LSTM网络结构(增加LSTM层,改变LSTM层之后完全连接层中的节点数量……);还有窗口的长度,但这个问题仍然存在。
所以,我想问一下,LSTM模型是否存在像我的数据那样的季节性趋势预测数据的问题?如果没有,有人能建议我一个LSTM模型或任何其他适合我的数据模型吗?
预先多谢:)
发布于 2018-07-31 09:04:28
当以一分钟的水平表示时,这种模式将在大约1440分钟后再次出现。因此,您的LSTM需要学习一个真正的长期依赖在这里。LSTM在如此长期的依赖关系上也不是很好。
我在这里会有相反的看法。降阶神经网络,拟合一个良好的线性模型,得到一个基准。如果线性模型(下面概述的例子)超过了当前的LSTM错误率,投资于建立一个更好的(通用的)线性回归模型。此外,从更粗略的输出定义开始(预测未来15分钟/1小时的总产出)。
像LSTM这样的复杂神经网络模型在手摇特征很难思考和实现时最好使用。对于许多时间序列应用程序来说,自己生成特性是直观的、简单的(像Python熊猫这样的大多数库都有很好的日期时间功能)和良好的第一步。区分上午和下午比教LSTM要好得多。
弗朗索瓦·乔莱特关于深度学习的书有一章讨论类似的应用程序。他解决了根据过去的数据预测特定时间窗口的天气的问题。他指出,许多复杂的神经网络体系结构发现很难超越简单的基线,比如过去同一时间段的平均。
https://datascience.stackexchange.com/questions/36247
复制相似问题