时间序列ARIMA模型详解:python实现店铺一周销售量预测

顾名思义,时间序列是时间间隔不变的情况下收集的时间点集合。这些集合被分析用来了解长期发展趋势,为了预测未来或者表现分析的其他形式。但是是什么令时间序列与常见的回归问题的不同?

有两个原因:

1、时间序列是跟时间有关的。所以基于线性回归模型的假设:观察结果是独立的在这种情况下是不成立的。

2、随着上升或者下降的趋势,更多的时间序列出现季节性趋势的形式,如:特定时间框架的具体变化。即:如果你看到羊毛夹克的销售上升,你就一定会在冬季做更多销售。

常用的时间序列模型有AR模型、MA模型、ARMA模型和ARIMA模型等。

一、时间序列的预处理

拿到一个观察值序列之后,首先要对它的平稳性和纯随机性进行检验,这两个重要的检验称为序列的预处理。根据检验的结果可以将序列分为不同的类型,对不同类型的序列我们会采用不同的分析方法。

先说下什么是平稳,平稳就是围绕着一个常数上下波动且波动范围有限,即有常数均值和常数方差。如果有明显的趋势或周期性,那它通常不是平稳序列。序列平稳不平稳,一般采用三种方法检验:

(1)时序图检验

看看上面这个图,很明显的增长趋势,不平稳。

(2)自相关系数和偏相关系数

还以上面的序列为例:用SPSS得到自相关和偏相关图。

分析:左边第一个为自相关图(Autocorrelation),第二个偏相关图(Partial Correlation)。

平稳的序列的自相关图和偏相关图要么拖尾,要么是截尾。截尾就是在某阶之后,系数都为 0 ,怎么理解呢,看上面偏相关的图,当阶数为 1 的时候,系数值还是很大, 0.914. 二阶长的时候突然就变成了 0.050. 后面的值都很小,认为是趋于 0 ,这种状况就是截尾。什么是拖尾,拖尾就是有一个缓慢衰减的趋势,但是不都为 0 。

自相关图既不是拖尾也不是截尾。以上的图的自相关是一个三角对称的形式,这种趋势是单调趋势的典型图形,说明这个序列不是平稳序列。

(3)单位根检验

单位根检验是指检验序列中是否存在单位根,如果存在单位根就是非平稳时间序列。

不平稳,怎么办?

答案是差分,转换为平稳序列。什么是差分?一阶差分指原序列值相距一期的两个序列值之间的减法运算;k阶差分就是相距k期的两个序列值之间相减。如果一个时间序列经过差分运算后具有平稳性,则该序列为差分平稳序列,可以使用ARIMA模型进行分析。

还是上面那个序列,两种方法都证明他是不靠谱的,不平稳的。确定不平稳后,依次进行1阶、2阶、3阶...差分,直到平稳为止。先来个一阶差分,上图:

从图上看,一阶差分的效果不错,看着是平稳的。

平稳性检验过后,下一步是纯随机性检验。

对于纯随机序列,又称白噪声序列,序列的各项数值之间没有任何相关关系,序列在进行完全无序的随机波动,可以终止对该序列的分析。白噪声序列是没有信息可提取的平稳序列。

对于平稳非白噪声序列,它的均值和方差是常数。通常是建立一个线性模型来拟合该序列的发展,借此提取该序列的有用信息。ARMA模型是最常用的平稳序列拟合模型。

二、平稳时间序列建模

某个时间序列经过预处理,被判定为平稳非白噪声序列,就可以进行时间序列建模。

建模步骤:

(1)计算出该序列的自相关系数(ACF)和偏相关系数(PACF);

(2)模型识别,也称模型定阶。根据系数情况从AR(p)模型、MA(q)模型、ARMA(p,q)模型、ARIMA(p,d,q)模型中选择合适模型,其中p为自回归项,d为差分阶数,q为移动平均项数。

下面是平稳序列的模型选择:

自相关系数(ACF)

偏相关系数(PACF)

选择模型

拖尾

p阶截尾

AR(p)

q阶截尾

拖尾

MA(q)

p阶拖尾

q阶拖尾

ARMA(p,q)

ARIMA 是 ARMA 算法的扩展版,用法类似 。

(3)估计模型中的未知参数的值并对参数进行检验;

(4)模型检验;

(5)模型优化;

(6)模型应用:进行短期预测。

三、python实例操作

以下为某店铺2015/1/1~2015/2/6的销售数据,以此建模预测2015/2/7~2015/2/11的销售数据。

#-*- coding: utf-8 -*- #arima时序模型 import pandas as pd #参数初始化 discfile = 'E:/destop/text/arima_data.xls' forecastnum = 5 #读取数据,指定日期列为指标,Pandas自动将“日期”列识别为Datetime格式 data = pd.read_excel(discfile, index_col = u'日期') #时序图 import matplotlib.pyplot as plt

#用来正常显示中文标签

plt.rcParams['font.sans-serif'] = ['SimHei']

#用来正常显示负号

plt.rcParams['axes.unicode_minus'] = False data.plot() plt.show()

#自相关图 from statsmodels.graphics.tsaplots import plot_acf plot_acf(data).show()

#平稳性检测 from statsmodels.tsa.stattools import adfuller as ADF print(u'原始序列的ADF检验结果为:', ADF(data[u'销量']))

#返回值依次为adf、pvalue、usedlag、nobs、critical values、icbest、regresults、resstore

原始序列的单位根(adf)检验

adf

cValue

p值

1%

5%

10%

1.81

-3.7112

-2.9812

-2.6301

0.9984

Pdf值大于三个水平值,p值显著大于0.05,该序列为非平稳序列。

#差分后的结果 D_data = data.diff().dropna() D_data.columns = [u'销量差分']

#时序图

D_data.plot() plt.show()

#自相关图

plot_acf(D_data).show()

plt.show()

from statsmodels.graphics.tsaplots import plot_pacf

#偏自相关图

plot_pacf(D_data).show()

#平稳性检测

print(u'差分序列的ADF检验结果为:', ADF(D_data[u'销量差分']))

一阶差分后序列的单位根(adf)检验

adf

cValue

p值

1%

5%

10%

-3.15

-3.6327

-2.9485

-2.6130

0.0227

Pdf值小于两个水平值,p值显著小于0.05,一阶差分后序列为平稳序列。

#白噪声检验 from statsmodels.stats.diagnostic import acorr_ljungbox

#返回统计量和p值

print(u'差分序列的白噪声检验结果为:', acorr_ljungbox(D_data, lags=1))

一阶差分后序列的白噪声检验

stat

P值

11.304

0.007734

P值小于0.05,所以一阶差分后的序列为平稳非白噪声序列。

from statsmodels.tsa.arima_model import ARIMA #定阶

#一般阶数不超过length/10

pmax = int(len(D_data)/10)

#一般阶数不超过length/10

qmax = int(len(D_data)/10)

#bic矩阵

bic_matrix = [] for p in range(pmax+1): tmp = [] for q in range(qmax+1):

#存在部分报错,所以用try来跳过报错。

try: tmp.append(ARIMA(data, (p,1,q)).fit().bic) except: tmp.append(None) bic_matrix.append(tmp) #从中可以找出最小值

bic_matrix = pd.DataFrame(bic_matrix) #先用stack展平,然后用idxmin找出最小值位置。

p,q = bic_matrix.stack().idxmin()

print(u'BIC最小的p值和q值为:%s、%s' %(p,q))

取BIC信息量达到最小的模型阶数,结果p为0,q为1,定阶完成。

#建立ARIMA(0, 1, 1)模型

model = ARIMA(data, (p,1,q)).fit()

#给出一份模型报告

model.summary2()

#作为期5天的预测,返回预测结果、标准误差、置信区间。

model.forecast(5)

最终模型预测值如下:

2015/2/7

2015/2/8

2015/2/9

2015/2/10

2015/2/11

4874.0

4923.9

4973.9

5023.8

5073.8

利用模型向前预测的时间越长,预测的误差将会越大,这是时间预测的典型特点。

参数检验如下:

Coef.

Std.Err.

t

P值

const

49.956

20.139

2.4806

0.0182

ma.L1.D.销量

0.671

0.1648

4.0712

0.0003

从检验结果p值来看,建立的模型效果良好。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2016-08-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【Hinton实验室探访】Capsule后最新研究,用软决策树更好理解DNN分类

来源:NYT,arXiv 编译:闻菲、刘小芹 【新智元导读】《纽约时报》今日发文,记者走访Hinton在多伦多的实验室,为我们带来Hinton新作“Capsul...

2355
来自专栏新智元

【资源】深度学习 Top100:近 5 年被引用次数最高论文(下载)

【新智元导读】这里是近5年100篇被引用次数最多的深度学习论文,覆盖了优化/训练方法、无监督/生成模型、卷积网络模型和图像分割/目标检测等十大子领域。重要的论文...

3376
来自专栏数说工作室

【数说学院】机器学习分类大全

作者 | 冰 · 冰 本文及图的作者是两个人,她们是一个女子博士团体——冰 · 冰 ? 图中整理了机器学习的各种方法,大体分为监督式学习、半监督式学习、无监督式...

3456
来自专栏人工智能

神经网络

如今,科学家正在努力探索人脑的奥秘,他们试图通过模仿人脑,来找到大数据的解决方案。

93211
来自专栏大数据文摘

想去机器学习初创公司做数据科学家?这里有最常问的40道面试题

2145
来自专栏算法channel

机器学习之线性回归:OLS 无偏估计及相关性python分析

0 回顾 在最近的推送中,先后总结了最小二乘法的原理,两个求解方法:直接法和梯度下降,最后利用这两种思路进行了python实战。在用直接法求出权重参数时,有一...

3544
来自专栏数据科学与人工智能

【陆勤学习】解读机器学习基础概念:VC维的来龙去脉

目录: 说说历史 Hoeffding不等式 Connection to Learning 学习可行的两个核心条件 Effective Number of Hyp...

4366
来自专栏Vamei实验室

概率论06 连续分布

在随机变量中,我提到了连续随机变量。相对于离散随机变量,连续随机变量可以在一个连续区间内取值。比如一个均匀分布,从0到1的区间内取值。一个区间内包含了无穷多个实...

2068
来自专栏AI科技评论

干货 | 论文笔记:第一人称视角视频中的行人轨迹预测

AI 科技评论按:本文为上海交通大学林天威为 AI 科技评论撰写的独家稿件,得到了其指点和审核,AI 科技评论在此表示感谢。 视频中的人体动作分析是计算机视觉研...

4046
来自专栏PPV课数据科学社区

盘点金融领域里常用的深度学习模型

在今天我们发布的这篇文章中,作者 Sonam Srivastava 介绍了金融中的三种深度学习用例及这些模型优劣的证据。 我们跟随 Sonam Srivasta...

38612

扫码关注云+社区