专栏首页算法channel最小二乘法原理(中):似然函数求权重参数

最小二乘法原理(中):似然函数求权重参数

在上一篇推送中我们讲述了机器学习入门算法最小二乘法的基本背景,线性模型假设,误差分布假设(必须满足高斯分布)然后引出似然函数能求参数(权重参数),接下来用似然函数的方法直接求出权重参数。

1 似然函数

首先构建似然函数 L(θ | x) ,假设一共有 m 个房屋相关样本,那么进一步得到似然函数(它是参数θ为自变量的函数,这个一定要注意了,似然函数将概率转化为似然,这个还是似然的强大之处了):

上式的意思是 m 个样本的误差分布的概率乘积,这就是概率似然函数。

提到似然函数,那不得不提最大似然函数估计吧,为什么呢?

因为既然似然函数是关于误差分布的发生概率的乘积,既然这些分布值都已经实实在在的出现了,为什么不求出这种θ ,它能使得事件尽可能地逼近样本值,这就是最大似然估计。

似然估计本质

本质便是根据已有的大量样本(实际上就是利用已知的条件)来推断事件本身的一些属性参数的方法,最大估计更是最能反映这些出现的样本的,所以这个参数值也是最可靠和让人信任的,得到这个参数值后,等来了一个新样本 X(i+1) 后,我们可以预测它的标签值。

2 极大似然估计

为了让上式最大,因为是各项相乘,不好求最大值,想到取对数,称为对数似然,这样就转换为求和了吗!

转化后的结果为:

2-1

要想求这个式子的极大似然值,即极大值,也就是要求解coeff后的那项的极小值吧,就是下面这项:

2-2

上个式子有个很容易记得名字,叫做最小二乘项,现在清楚地推导出了最小二乘项,原来它不是凭空而来,不是根据经验定义出来的公式!

3 求导法

为了求解上个式子的极小值,首先想到的是求偏导,等于0,然后得出极小值吧。

上面这个式子,写成矩阵的形式为,

3-1

稍微解释下,X在我们前几篇的推送的房屋那个例子中,是不是4行3列的矩阵,theta是不是3行1列的矩阵,他俩相乘是不是等于4行1列的矩阵,然后y是4行1列的矩阵,是不是正好能做减法啊。

对其求导得到如下式子,中间的过程大家自行推导吧,

3-2

还记得2-1那个公式,J(theta)前有个1/2吗(我们只是没有写出来),这样前面的2实际上可以正好消除,也就是说J(theta)那个最小二乘项,最好带上那个1/2吧,也就是说:

3-3

再回头求完导后的那个式子3-2,令偏导等于0,不就是得到一个极小值吗,但是别忘了,这里又有一个假定,

假定这个为非奇异矩阵吧,因为只有非奇异矩阵才可求矩阵的逆啊!如果上面这项近似为奇异矩阵,那么就会引起一个最小二乘法的bug,这也是最小二乘法不能处理多重强相关性数据集的原因所在。

假定不是奇异矩阵,那么参数theta这次可以求解出来了,即:

大家可以初步检测下这个结果对不对,还是那个房子数据集,X是4行3列,y是4行1列,带入后得到的theta是3行1列,正好是我们想要的那3个参数啊!

4 总结

在以上求解过程中做了一个

不能为奇异矩阵的假定,再加上之前的误差分布必须满足某种分布这个假定,所以最小二乘法直接求解得满足两个假定。

以上我们通过数学的方法,借助似然函数,然后求似然函数对数的极大似然估计,直接把参数求出来了,这是必然?还是巧合?

机器学习的参数一般是不能通过直接求解得出的,所以很明显是个巧合啊!

那么如果不想用这种巧合的方法去求解,有没有更加通用的方法,来求解最小二乘项的极小值呢?

本文分享自微信公众号 - 算法channel(alg-channel),作者:alg-flody

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-11-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 2000字详解:极大似然估计, 最大后验概率估计

    统计学中,似然函数是一种关于统计模型参数的函数。给定输出x时,关于参数θ的似然函数为L(θ|x),似然函数在数值上等价与给定θ后的

    double
  • 机器学习储备(3):似然函数例子解析

    似然函数是个什么函数,它的意义是什么?它与概率相比,有什么不同吗? 1 似然函数 似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。 给定输出...

    double
  • 聊聊 [ ] 操作符,最后引出一个看似.....

    原生Python中,[] 操作符常见的是与 list 搭配使用,并且 [] 操作符支持的对象只能是:整形,切片,list等可迭代对象是禁止的。例如:

    double
  • 极大似然估计法的理解指南

    极大似然估计是 1821 年由高斯提出,1912 年由费希尔完善的一种点估计方法。

    用户1737318
  • 最大似然估计(Maximum Likelihood Estimation) - 机器学习基础

    版权声明:本文为博主原创文章,未经博主允许不得转载。 ...

    Steve Wang
  • 简述极大似然估计

    极大似然估计是一种参数估计的方法。 先验概率是 知因求果,后验概率是 知果求因,极大似然是 知果求最可能的原因。 即它的核心思想是:找到参数 θ 的一个估计...

    杨熹
  • 机器学习(十八)极大似然估计

    极大似然估计是在总体类型已知条件下使用的一种参数估计方法 。它首先是由德国数学家高斯在1821年提出的,

    致Great
  • 最大似然函数最大似然原理小结:最大似然估计法的一般步骤:例子:

    用户1733462
  • 似然函数和最大似然估计

    似然函数以及最大似然函数在机器学习中是一个比较重要的知识点。本文从什么是似然函数以及似然函数的定义引入最大似然函数,最后通过简单的抛硬币例子来更加具体的说明。

    触摸壹缕阳光
  • 极大似然公式证明

    通过经验风险最小化推导极大似然估计,证明模型是条件概率分布,当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计 ? 字有点丑,多多担待啦(∩ơ ㅅ ơ...

    云时之间

扫码关注云+社区

领取腾讯云代金券