机器学习算法之线性回归（一）

文章来源：企鹅号 - AI遇见机器学习

标题

线性回归概念

梯度下降

线性回归梯度下降

正规方程组

线性回归概率意义

局部加权回归

在回归分析中，一个自变量和一个因变量的关系可用一条直线近似表示，称为一元线性回归分析。当自变量大于一个的时候，称为多元线性回归。以房价-住宅面积为例。

每组数据（住宅面积，房价）可以在坐标轴中用点表示

我们希望模型拟合出一条直线y=ax+b，以此表示住宅面积和房价之间的关系。当二维坐标系上分布的点离直线的距离之和越小（大多数点离直线很近），拟合的效果越好。此时你输入X（住宅面积），模型就会输出一个与真实值相近的预测值（房价）。更一般直线方程表示为：

用向量的内积表示方程会带来很多便利（以后会知道的）。

但如果房价不仅与住宅面积有关，还和卧室的数量有关。直线方程仍然可以同样的式子（向量的内积）表示。

显然，这时的点分布在一个三维空间，我们要用一个平面去拟合房价与住宅面积以及卧室之间的关系，如果三维空间上的点离平面的距离之和最小（大多数点离平面很近），我们认为此时的模型是最好的。

这样我们把在二维的线性回归推广到三维。在n维空间中，n-1个自变量与1个因变量的关系可以表示为n-1维的超平面。

上面我们将坐标系中上所有点到超平面(超过3维则无法画出图像)的距离之和作为模型好坏的判别标准。距离之和越小，则可认为模型越好。则我们的损失函数定义为：

损失函数的值等于对每个样本点的预测值与实际值差的平方和求和。之所以对平方和求和，是为了避免正负误差相互抵消。（使用预测值与实际值差与使用上面的距离是等价的，而且计算量更小）1/2 是为了之后求偏导的时候可以让式子的系数等于1而存在。（1/2有没有都没关系，系数只要非0，对结果都不会有影响，因为在比较两个不同模型的优劣的时候，实际是比较他们损失函数的值，两个数值乘以同一个非0因子，他们的大小关系不会改变。）

得出损失函数之后，我们就得到了一个求解最佳模型的策略——求解使损失函数达到最小的参数

发表于: 2017-12-212017-12-21 21:12:12
原文链接：http://kuaibao.qq.com/s/20171221G0WVNS00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

机器学习算法之线性回归（一）

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐