线性回归背后的数学

zhuanxu

发布于 2018-08-23 13:02:06

4970

发布于 2018-08-23 13:02:06

文章被收录于专栏：进击的程序猿进击的程序猿

本文是YouTube上视频How to Do Linear Regression the Right Way笔记

假设我们有一堆数据，并且他们是线性相关的，那我们怎么找出最合适的那条直线呢？

此处关键是定义什么是最合适？可以通过每个点到直线的距离来定义整个合适，如图：

在上面的过程中，直线y=mx+b中m和b不管变化，从而找到最合适的直线，这个判断的依据就是：

上面公式的含义是：假设点是(x,y)，那相同x的直线上的点就是：(x,mx+b)，而这两者之间的距离就是(y-(mx+b))，为了防止出现负数，因此我们就计算了平方，有了这个衡量的标准后，我们就可以画出上面公式的一个图了：

此处画出来是一个立体图，我们要找的一个最佳的直线，对应到图中其实就是一个最低点，更形象的例子是：

如果我们此时放一个弹珠到碗里，最终弹珠停下来的点就是我们要找的最佳点，现在我们没有弹珠，我们要怎么找到这个最佳点呢？这就要讲到偏导数（partial derivatives）的概念了，以前大学里学偏导数的是时候一直不明白为什么叫偏导，直到最近看到英文：partial derivatives才明白，我们来看图：

图中的函数f是一个表面，如果我们固定住y，则是一个曲线，如图中绿色的线，此时我们在计算点(a,b,f(a,b))在绿色线上的斜率，就可以得到沿着x方向的斜率了，同样的我们固定x，就可以得到y方向的斜率，这样子解释，英文partial derivatives就很形象了，即计算的部分的斜率，合在一起才是曲面上这个点相切的一个平面。

由此我们就有了偏导数：

根据上面的这些我们就有了最后的代码:https://github.com/llSourcell/linear_regression_live

一些视频的中的词汇记录：

back of your hand：了如指掌

gradient descent：梯度下降

partial derivatives：偏导数

calculus：微积分

correlation：相关性

intercept：截断

slope:斜率

Convergence：收敛

slope formula：斜率公式

magnitude：大小

with respect to：关于

tangent：切线

好书推荐：Machine Learning and Probabilistic Approach

本文参与腾讯云自媒体分享计划，分享自作者个人站点/博客。

原始发表：2017.01.29 ，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

线性回归背后的数学

线性回归背后的数学

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐