线性回归 蕴含机器学习基本思想的入门级模型

是代表了预测值,数据中我们将某一特征列作为自变量x(例如身高),因变量y(如体重)也就是我们想要预测的值,x和y都已知,现在的任务就是:加入新增了一个x,而其对应的y未知,那么我们该如何预测出一个

对于身高体重这样的简单问题而言,就可以直接使用上述的线性方程作为我们想要拟合的模型。接下来的问题就是,如何拟合这个模型,也就是说,如何求得线性模型中的两个参数w和b?

,对比已有的真实值y,数据行数为n,我们很自然地可以将损失函数定义如下:

即预测值与真实值之间的平均的平方距离,统计中我们一般称其为MAE(meansquareerror)均方误差。把之前我们确定的

带入损失函数:

注意,对于损失函数L而言,其自变量不再是我们习惯中的x(其实x和y都是在训练数据中的已知值),损失函数L的自变量应该是我们要求解的参数w和b,因此我们可以把损失函数重新记为:

现在,我们的任务就是希望把这个损失函数交给计算机,然后跟计算机说,帮我把这个函数最小化,然后告诉我L最小时的一组w和b是多少就行了。但是显然计算机还没那么聪明,它并不知道怎么算,我们还是要靠自己解决。核心的优化目标式:

这里有两种方式:一种是“最小二乘法”(leastsquaremethod),可直接求解;另一种是梯度下降(gradientdescent),有关梯度下降的方法原理可参考我之前这篇文章->[link].1.4最小二乘法求解和是使损失函数最小化的过程,在统计中,称为线性回归模型的最小二乘“参数估计”(parameterestimation)。

令上述两式为0,可得到w和b最优解的闭式(closed-form)解:

1.5梯度下降法求解

原始数据x,y和拟合的直线方程

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180701A02VHR00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券