FRM 数量分析笔记之线性回归

钱塘小甲子

发布于 2019-01-29 09:42:48

1.2K0

发布于 2019-01-29 09:42:48

文章被收录于专栏：钱塘小甲子的博客

线性回归可能大家都会觉得很熟悉了，玩过机器学习的人还会觉得这个low low的，其实，线性回归在数理统计的角度下，还是有很多值得考察的地方的。

1、一元线性回归

线性回归，自然就想到最小二乘法了。线性回归说白了就是确定斜率和截距，他们的计算方法如下所示。

斜率的确定很有意思，协方差除以独立变量的方差。所以，协方差、独立变量方差、斜率，知道两个就可以获得第三个；结合之前的相关系数，那么，可以互推的情况就很多了。

评价一个线性回归拟合的好不好，直观上有残差平方和，SSR。在数理统计的框架下，评价的指标更加丰富。

TSS是不考虑回归，数据自身与均值比较的平方和，ESS则是回归方程预测后的数据与均值的平方和，也叫解释平方和。含义就是，原始数据中的波动性被解释的部分。SSR则是没有没解释的部分。那么显然，没有被解释的部分越小越好，所以有了R^2指标，这个指标在SSR越小的情况下变大。

R^2指标的实际含义就是你的回归曲线能够解释多少的原始波动，而且神奇的事情是，他是X与Y相关系数的平方。

然后我们引入一个叫做自由度的东西。n个抽样出来的样本，我们认为他是n-1个自由度，这就是为什么我们看到对总体无偏估计计算方差的时候，分母不是n，而是n-1。我们可以这么理解，在已知期望的基础上，我们实际是只有n-1个自由度的，因为根据期望和n-1个样本就可以知道第n个样本的值。在线性回归中也是这样，ESS，被解释部分平方和的自由度是independent变量的个数，在单元线性回归中，就是1个自由度，剩下的n-2个自由度就是属于SSR残差平方和的。而这一平方和除以自由度，就是SER，回归的标准误差。这又是一个衡量线性回归曲线的拟合度的指标。

完成线性回归的计算后，我们又有一个问题了，我们选择的这个X真的和Y有关吗？有关的话，置信度如何呢？

根据之前说的假设检验的方法，我们可以有如下null假设和备择假设：