线性回归的信赖区间

让回归方程式变得精确

上次课我们学过了如何从一堆数据中,找到一个线性回归的方程式,就是酱紫的:

那么这个方程式呢,一般是拟合的样本数据,而非整个母体数据,因此用回归方程式做估计或预测样本之外的值时,难免会有一些误差。

我们前面学过了信赖区间的概念,知道在某个信赖水平下,均值μ(或其他指标)落在这个信赖区间内的概率是非常大的。

我们也可以运用这种思想,把直线方程的系数—b0和b1,也做一个信赖水平的估计,

我们可以这么说:

在95%的信赖水平下,b0取值在1.5和3之间,b1取值在5和9之间。

这样测算出来的Y值就会有个误差范围,因此就可以最大限度的让线性回归方程式达到精确。

回归方程式的信赖区间

真实的母体数据构成的线性回归方程式应该是酱紫的:

而用样本估计的方程式是酱紫的:

真实母体的线性回归方程式系数β0和β1,就是我们需要推断的值。

斜率β1的信赖区间(估计区间)是酱紫的:

在特定的某点X=x0的情况下,Y0的信赖区间(估计区间)是酱紫的:

在特定的X=x0的情况下,预测第n+1个新观察值Yn+1的信赖区间(预测区间)是酱紫的:

神马?你又忘了MSE是什么啦?

好吧,我这里把各项值都列一遍好啦:

这下各个式子代表啥都清楚了吧?

这里我们不做过多推导论证,大家只要记住结论会用就行。

答疑解惑

问题1:

估计区间和预测区间的区别?

估计区间是已发生的,就是在已知的母体数据中抽取一个样本,从而测算母体的某个已知量,比如产品质检;而预测区间是未发生的,是在已知的母体数据中抽取一个样本,从而预测某个未知量,比如股价预测。

问题2:

系数β0的信赖区间?

系数β0的信赖区间暂时不用管,因为Y的区间既然已经给出了,它也就没啥用了。

那为啥要给出斜率β1的信赖区间呢?

以上节课温度和含有率的题目为例,斜率代表的是:

每上升(或下降)1摄氏度时,含有率就上升(或下降)多少。

假设你是试验者,这个参数还是蛮有用的。

举个栗子

假设某产品的某种成分含有率,会随着温度的变化而变化。工程师现做了12次的实验,得到资料如下:

试找出线性回归方程式,并预测在95%的信赖水平下,当温度是199摄氏度时,其含有率是多少?

解:

第一步:计算基本数据。

第二步:计算回归方程式。

第三步:预测值。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180627G1FLH600?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券