把浩瀚的海洋装进我胸膛 即使再小的帆也能远航
我们利用最小二乘法求散点(x1,y1),(x2,y2),…,(xn,yn),的线性回归方程y=bx+a,也就是希望(bx1+a-y1)2+(bx2+a-y2)2+ …+(bxn+a-yn)2取到最小值.
然后对于绝大部同学来说,中间就省略了冗长的推导,直接得到:
当然该公式也不要求记忆,所以大部分同学只是停留在会选择合适的公式然后代入求值的层面.
但是如果稍微换一个考查方式,可能大家就会发懵,比如下面这道题:
(2016全国3)
下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图
(I)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(II)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
分析:
该题中yi具体的值未知,所以已给公式没法直接套用,必须用另一个公式,但是另一个公式记不住,也不会推导,所以这道题的确让很多同学栽了跟头.
所以我们有必要把公式的证明以及两个公式的变换熟悉一下,教材的推导方法不太好想,我们来介绍一个简单点的:
模拟卷上经常见到类似这样的题:
求(b+a-2)2+(2b+a-3)2+(3b+a-5)2最小值.
分析:
由最小二乘法,可得只需要求散点(1,2),(2,3),(3,5)的回归直线的系数b和a,就使得上式取到最小值.
但是如果上式改成求(b+a-2)2+(2b+a-3)2+(3b+2a-5)2最小值,就没法利用最小二乘法来解决了.
该题的一般做法是先把其看成关于a的二次函数,将a用b表示求最小值,代入,然后看成关于b的二次函数,再求最小值.
一般地:
此时
又
所以有:
对于上述两个公式,一般数据较大的时候利用前者,数据接近0的时候用第二个.
一组散点如果进行相同的平移,显然回归直线也跟着进行相同的平移,所以b不会改变,上述两个公式也反映了该关系.
而且
所以对于数据较大的时候,可以将数据处理之后变小,对x最好减去平均数,但是对y,就不一定要减平均数了,只要方便即可,比如:
(2011安徽)
某地最近十年粮食需求量逐年上升,下表是部分统计数据:
(Ⅰ)利用所给数据求年需求量与年份之间的回归直线方程;
(Ⅱ)利用(Ⅰ)中所求出的直线方程预测该地2012年的粮食需求量.
分析:
对数据预处理如下:
其中需求量平均数有小数,减去平均数不方便,所以减去257,当然也可以减去别的数,都不会影响求b的值.
领取专属 10元无门槛券
私享最新 技术干货