首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习算法之线性回归(一)

标题

线性回归概念

梯度下降

线性回归梯度下降

正规方程组

线性回归概率意义

局部加权回归

在回归分析中,一个自变量和一个因变量的关系可用一条直线近似表示,称为一元线性回归分析。当自变量大于一个的时候,称为多元线性回归。以房价-住宅面积为例。

每组数据(住宅面积,房价)可以在坐标轴中用点表示

我们希望模型拟合出一条直线y=ax+b,以此表示住宅面积和房价之间的关系。当二维坐标系上分布的点离直线的距离之和越小(大多数点离直线很近),拟合的效果越好。此时你输入X(住宅面积),模型就会输出一个与真实值相近的预测值(房价)。更一般直线方程表示为:

向量的内积表示方程会带来很多便利(以后会知道的)。

但如果房价不仅与住宅面积有关,还和卧室的数量有关。直线方程仍然可以同样的式子(向量的内积)表示。

显然,这时的点分布在一个三维空间,我们要用一个平面去拟合房价与住宅面积以及卧室之间的关系,如果三维空间上的点离平面的距离之和最小(大多数点离平面很近),我们认为此时的模型是最好的。

这样我们把在二维的线性回归推广到三维。在n维空间中,n-1个自变量与1个因变量的关系可以表示为n-1维的超平面。

上面我们将坐标系中上所有点到超平面(超过3维则无法画出图像)的距离之和作为模型好坏的判别标准。距离之和越小,则可认为模型越好。则我们的损失函数定义为:

损失函数的值 等于对每个样本点的预测值与实际值差的平方和求和。之所以对平方和求和,是为了避免正负误差相互抵消 。(使用预测值与实际值差与使用上面的距离是等价的,而且计算量更小)1/2 是为了之后求偏导的时候可以让式子的系数等于1而存在。(1/2有没有都没关系,系数只要非0,对结果都不会有影响,因为在比较两个不同模型的优劣的时候,实际是比较他们损失函数的值,两个数值乘以同一个非0因子,他们的大小关系不会改变。)

得出损失函数之后,我们就得到了一个求解最佳模型的策略——求解使损失函数达到最小的参数

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171221G0WVNS00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券