前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >提问 | 如何利用一批去年的数据,来预测未来三年的数据?

提问 | 如何利用一批去年的数据,来预测未来三年的数据?

作者头像
CDA数据分析师
发布2018-02-23 17:39:15
1.4K0
发布2018-02-23 17:39:15
举报
文章被收录于专栏:CDA数据分析师CDA数据分析师

文 | 邹日佳

来自知乎

1、这批去年的数据是按月份的,本身肯定会有波动,但相对稳定。

2、预测未来三年的数据是需要具体到月份。恩

3、请问有什么统计方法可以做到么?

好吧,这个问题真的是看得我都想用咆哮体写了,作为统计系的学生,针对你的要求我只能做到用样本的均值来估计之后三年的数据。

以下长文,对数学恨之入骨的人慎入。

说真的,我可能是大言不惭了,但是我要说,你们真的不懂统计。

做一个模型大致思路是这样的:

1、分析数据特征

2、由数据特征来寻找较为符合的数据模型

3、以合适的方法估计出模型的参数值

4、检验估计出来的模型的优劣以及对未来值进行估计。

期间的每一步都要经过严格的思考,不要随意跳步。

你的样本量真的是太小了。不同意只是给出一个模型有什么意义,你的目的是要最好的估计出来以后的数据,模型并不重要,重要的是估计值准不准确。部分同意@赵昕的答案,但仅推测一个月一样是不合适的。

问题是出在第2步。

本身的数据太少,特征没有什么代表性。我们在做模型的时候,往往都对数据量的多少有欠考虑。其实数据量的需求是根据你所要估计模型的参数个数来确定的。对于均值,哪个不是用样本期望来估计的,但为什么可以这样,为什么不是拿中位数,这样的估计效果如何,偏差大不大,又考虑过么。基本上要对一个参数进行合适的估计,我们至少要有10个数据。对于多个参数的情况下,每个参数不能低于对应5个数据,如果要低于这个数据量,那么这个模型完全是没有意义的。

对以前的数据拟合的好,说明不了什么问题。现在许多人太计较R方了,R方从来不是挑选一个模型的标准,只能作为剔除一个模型的参考!你想要模型拟合的好,不如去做CRD好了,12个数据,12个参数,每个都是准的,但没有任何的意义。为什么在时间序列分析里面,人们都倾向于用简单的模型,而不是复杂的,不是因为麻烦,是因为预测的不准。再说t检验,我们在模型里做t检验其实都是对参数的均值进行检验并在最后以参数的均值作为对参数的估计(许多人都有这个误区,以为一开始检验的就是参数),我们的原假设是参数的均值是0,并认为它服从正态分布。为什么能认为服从正太分布?因为中心极限定理告诉我们,当样本量足够大时,不论什么分布的均值都服从正太分布。12个数据的样本?可恶啊,我这个学统计的办不到。

另外参数越多,你估计的每个参数的精度就越差。为什么这么说,其实每次在估计参数时,咱们都是在做解多元方程的游戏,参数个数就是这些多元方程的变量,你的每一个数据其实就是在列一个与这些参数有关的式子。不论是OLS还是MLE还是ConditionalMLE都是如此,你的数据越多,对这些参数的构造就越多,你的参数也就估计的越准确。本身由小量数据来估计的参数不准确,就算你用的是个无偏有效的估计方法,又有什么意义呢?(一直有人问自由度是什么,为什么说参数的个数就是自由度,或者是样本个数-自由度,联想到多元方程,是不是有点“自由”与“限制”的感觉了?)

对于使用什么模型,其实都是要估计参数的,马尔可夫不是一样要估计转移矩阵么。其实估测方法的思想很简单,要不就是把可能的偏差最小化,要不就是把已发生的现象的可能性最大化,在这些都做不到的情况下,以最小损失去使上述变为可能。但是在你数据不足的情况下,这些都没有任何意义,做出来的东西也是偏的。

由于样本量过小,对于多参数来讲本身估计的参数值就不正确了,这就是为什么我不同意赵昕所说的估测之后的1个月还好。在这个角度上来讲,一样的,也不可以。

好吧,那么我们只能用简单一元线性回归了,参数勉强达到标准。(每个参数对应6个数据,参数分别是μ和β。)

那么在前三步来讲还是没有问题的,但是等到了第4步,情况就又出现了。

学过统计学的人应该知道置信区间这么一个概念吧,但是知不知道预测区间?

预测区间是指当你估计未来值时,这个区间以一定的概率包含你对未来值的正确估计。我们一般把一定的概率取为0.95.

实在是不想列公式,不过预测区间有这么一个性质,当你估测的x是所有x的均值时,它的区间最窄,可信度最高。当你越偏离x的均值时,你的区间越宽(因为有(xi-mean(x))^2项)。你只有12个月的数据,把x取为1,2,...,12,那么均值就是6.5。在这种情况下预测之后的一个月是可以的,但是想要较为准确地预测3年的数据?可恶啊,我这个学统计的还是办不到。

于是乎我只能说用均值来作为估计了,因为Nullmodel只有1个参数(μ)可以较为准确的估计,也没有一元线性回归那么恶劣的估计性质。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-09-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CDA数据分析师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档