提问 | 如何利用一批去年的数据,来预测未来三年的数据?

文 | 邹日佳

来自知乎

1、这批去年的数据是按月份的,本身肯定会有波动,但相对稳定。

2、预测未来三年的数据是需要具体到月份。恩

3、请问有什么统计方法可以做到么?

好吧,这个问题真的是看得我都想用咆哮体写了,作为统计系的学生,针对你的要求我只能做到用样本的均值来估计之后三年的数据。

以下长文,对数学恨之入骨的人慎入。

说真的,我可能是大言不惭了,但是我要说,你们真的不懂统计。

做一个模型大致思路是这样的:

1、分析数据特征

2、由数据特征来寻找较为符合的数据模型

3、以合适的方法估计出模型的参数值

4、检验估计出来的模型的优劣以及对未来值进行估计。

期间的每一步都要经过严格的思考,不要随意跳步。

你的样本量真的是太小了。不同意只是给出一个模型有什么意义,你的目的是要最好的估计出来以后的数据,模型并不重要,重要的是估计值准不准确。部分同意@赵昕的答案,但仅推测一个月一样是不合适的。

问题是出在第2步。

本身的数据太少,特征没有什么代表性。我们在做模型的时候,往往都对数据量的多少有欠考虑。其实数据量的需求是根据你所要估计模型的参数个数来确定的。对于均值,哪个不是用样本期望来估计的,但为什么可以这样,为什么不是拿中位数,这样的估计效果如何,偏差大不大,又考虑过么。基本上要对一个参数进行合适的估计,我们至少要有10个数据。对于多个参数的情况下,每个参数不能低于对应5个数据,如果要低于这个数据量,那么这个模型完全是没有意义的。

对以前的数据拟合的好,说明不了什么问题。现在许多人太计较R方了,R方从来不是挑选一个模型的标准,只能作为剔除一个模型的参考!你想要模型拟合的好,不如去做CRD好了,12个数据,12个参数,每个都是准的,但没有任何的意义。为什么在时间序列分析里面,人们都倾向于用简单的模型,而不是复杂的,不是因为麻烦,是因为预测的不准。再说t检验,我们在模型里做t检验其实都是对参数的均值进行检验并在最后以参数的均值作为对参数的估计(许多人都有这个误区,以为一开始检验的就是参数),我们的原假设是参数的均值是0,并认为它服从正态分布。为什么能认为服从正太分布?因为中心极限定理告诉我们,当样本量足够大时,不论什么分布的均值都服从正太分布。12个数据的样本?可恶啊,我这个学统计的办不到。

另外参数越多,你估计的每个参数的精度就越差。为什么这么说,其实每次在估计参数时,咱们都是在做解多元方程的游戏,参数个数就是这些多元方程的变量,你的每一个数据其实就是在列一个与这些参数有关的式子。不论是OLS还是MLE还是ConditionalMLE都是如此,你的数据越多,对这些参数的构造就越多,你的参数也就估计的越准确。本身由小量数据来估计的参数不准确,就算你用的是个无偏有效的估计方法,又有什么意义呢?(一直有人问自由度是什么,为什么说参数的个数就是自由度,或者是样本个数-自由度,联想到多元方程,是不是有点“自由”与“限制”的感觉了?)

对于使用什么模型,其实都是要估计参数的,马尔可夫不是一样要估计转移矩阵么。其实估测方法的思想很简单,要不就是把可能的偏差最小化,要不就是把已发生的现象的可能性最大化,在这些都做不到的情况下,以最小损失去使上述变为可能。但是在你数据不足的情况下,这些都没有任何意义,做出来的东西也是偏的。

由于样本量过小,对于多参数来讲本身估计的参数值就不正确了,这就是为什么我不同意赵昕所说的估测之后的1个月还好。在这个角度上来讲,一样的,也不可以。

好吧,那么我们只能用简单一元线性回归了,参数勉强达到标准。(每个参数对应6个数据,参数分别是μ和β。)

那么在前三步来讲还是没有问题的,但是等到了第4步,情况就又出现了。

学过统计学的人应该知道置信区间这么一个概念吧,但是知不知道预测区间?

预测区间是指当你估计未来值时,这个区间以一定的概率包含你对未来值的正确估计。我们一般把一定的概率取为0.95.

实在是不想列公式,不过预测区间有这么一个性质,当你估测的x是所有x的均值时,它的区间最窄,可信度最高。当你越偏离x的均值时,你的区间越宽(因为有(xi-mean(x))^2项)。你只有12个月的数据,把x取为1,2,...,12,那么均值就是6.5。在这种情况下预测之后的一个月是可以的,但是想要较为准确地预测3年的数据?可恶啊,我这个学统计的还是办不到。

于是乎我只能说用均值来作为估计了,因为Nullmodel只有1个参数(μ)可以较为准确的估计,也没有一元线性回归那么恶劣的估计性质。

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2015-09-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量化投资与机器学习

因子的有效性分析基于7种机器学习算法【系列54】

今天,继续我们的机器学习应用量化投资系列。本期我们介绍一篇研究报告,详细的介绍了7中机器学习算法在因子有效性上的展现。希望给大家在写策略时做一些参考借鉴。 前言...

53180
来自专栏IT技术精选文摘

OCR检测与识别技术

2.1K100
来自专栏量子位

汤晓鸥为CNN搓了一颗大力丸

是重新搭一个模型呢,还是拿来新数据重新调参,在这个已经训练好的模型上搞迁移学习呢?

10000
来自专栏TensorFlow从0到N

TensorFlow从1到2 - 1 - 深度神经网络

上一主题《TensorFlow从0到1》介绍人工神经网络的基本概念与其TensorFlow实现,主要基于浅层网络架构,即只包含一个隐藏层的全连接(FC,F...

499110
来自专栏智能算法

没有公式如何看懂EM算法?

EM(Expectation Maximization: 期望最大化)这个问题感觉真的不太好用通俗的语言去说明白,因为它很简单,又很复杂。简单在于它的思想,简单...

327120
来自专栏腾讯技术工程官方号的专栏

ICML 2018 | 腾讯AI Lab详解16篇入选论文

10.7K20
来自专栏大数据文摘

Kaggle大赛:债务违约预测冠军作品解析

50130
来自专栏AI科技评论

学界 | 谷歌最强 NLP 模型 BERT 解读

AI 科技评论按:本文是追一科技潘晟锋基于谷歌论文为 AI 科技评论提供的解读稿件。

15920
来自专栏CDA数据分析师

基于R语言的梯度推进算法介绍

简介 通常来说,我们可以从两个方面来提高一个预测模型的准确性:完善特征工程(feature engineering)或是直接使用Boosting算法。通过大量数...

26870
来自专栏ATYUN订阅号

【学术】在机器学习中经常使用的6种人工神经网络

人工神经网络是是类似于人类神经系统功能的计算模型。有几种人工神经网络是基于数学运算和确定输出所需的一组参数来实现的。让我们来看看吧: ? 1.前馈神经网络-人工...

401130

扫码关注云+社区

领取腾讯云代金券