学习
实践
活动
工具
TVP
写文章

游离态glz的大白话机器学习专栏

游离态glz的大白话机器学习专栏

chapter1

线性回归问题的一般解决方法(一)

1.什么是线性回归问题

在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。简单来说,就是我们在研究某个问题时,假设我们关心的值($y$)与多个因素($x1,x2...xn$)有关,而且我们可以假设他们之间有线性关系,即有$y =f(x1;x2;...;xn) = \theta0 + \theta1x1 + \theta2x2 + ... + \thetanxn$,如何用手中拥有的数据集(现实中调查到的因素$x1,x2...xn与y$的数值),去寻找一系列参数$\theta0,\theta1...\thetan$使得我们的$f(x1;x2;...;xn)$函数值与现实中的y值最为接近。这个问题就是我们的线性回归问题了。举个例子,借用Ng老师的ex1为例(以下均用该数据为例),我们作为超市的老板,拥有了每个城市人口以及超市盈利的数据,我们希望用手中数据建立一个线性模型,方便我们决策是否在其他城市开设超市。

2.数据可视化

研究问题之前,我们可以先用软件将我们手中的数据进行秒点,方便我们直观地认识我们的研究问题。我们使用Matlab或者octave来进行工作。这是我们数据的一部分:

左边是我们的城市人口/10000,右边是盈利/$10000以下进行可视化操作:

得到结果:

可以看到,我们的数据大致呈现一个线性关系,因而加强了我们使用线性回归的决心。到这里,我们已经学会了线性回归的基本概念和如何将数据可视化。之后我们所要做的就是明确模型“好”的标准,并且找到合适的$\theta$参数让我们的模型达到这个”好“的标准。

今天我们的讨论告一段落,下一篇,我将带领大家认识代价函数和梯度下降,来解决我们找到“好”模型的问题

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181120G1TO5700?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券