机器学习1--线性回归模型

用户5473628

发布于 2019-08-08 10:44:57

7250

发布于 2019-08-08 10:44:57

文章被收录于专栏：MiningAlgorithms

1，假设条件：

2，α、β推导：

3，R_square:

4，梯度下降法：

5，牛顿法：

6，回归模型的评价指标：

1，假设条件：

1），y的均值是x的线性组合（Linear Function）；

2），残差e_i独立于x；

3），给定x, 残差e_i要服从正态分布（Normal Distribution）；

4），对于不同的xi, 残差e_i的方差variance应相同（qual Variance）。

2，α、β推导：最小二乘法

最小化残差平方和，即最小化SSE：

根据方差与协方差的如下性质：

通过极值条件，求得α、β的估计值如下：

3，R_square：

样本中总偏差平方和中，被回归平方和解释的百分比：

注意：

R_square小不代表自变量与因变量没有关系；R_square大也不代表自变量与因变量一定是线性关系；R_square大同样不代表结果显著（与确定性有关）。

4，梯度下降法：

由于方程的数量远大于未知数的个数，即样本点的数量远大于参数的个数，使得上述线性回归模型极有可能没有解析解。

在机器学习中，梯度下降法是比较基础和重要的求最小值的算法：

下山问题

假设我们位于黄山的某个山腰处，山势连绵不绝，不知道怎么下山。于是决定走一步算一步，也就是每次沿着当前位置最陡峭最易下山的方向前进一小步，然后继续沿下一个位置最陡方向前进一小步。这样一步一步走下去，一直走到觉得我们已经到了山脚。这里的下山最陡的方向就是梯度的负方向。

梯度表示某一函数在该点处的方向导数沿着该方向取得较大值，即函数在当前位置的导数。

其中，θo是自变量参数，即下山位置坐标，η是学习因子，即下山每次前进的一小步（步进长度），θ是更新后的θo，即下山移动一小步之后的位置。

5，牛顿法：

在机器学习中，牛顿法、梯度下降法，都是主要的优化算法。

并不是所有的方程都有求根公式，或者求根公式很复杂，导致求解困难。利用牛顿法，可以迭代求解。

算法原理：寻找f(x)=0时，x 的值。

利用泰勒公式，在x0处展开，且展开到一阶，即f(x) = f(x0)+(x－x0)f'(x0)

求解方程f(x)=0，即f(x0)+(x-x0)*f'(x0)=0，求解x = x1=x0－f(x0)/f'(x0)，因为这是利用泰勒公式的一阶展开，f(x) = f(x0)+(x－x0)f'(x0)处并不是完全相等，而是近似相等，这里求得的x1并不能让f（x）=0，只能说f(x1)的值比f(x0)更接近f（x）=0，于是乎，迭代求解的想法就很自然了，可以进而推出x(n+1)=x(n)－f(x(n))/f'(x(n))，通过迭代，这个式子必然在f（x*）=0的时候收敛。

迭代过程如下图所示：