最小二乘法来源(翻译)

三猫

发布于 2018-10-24 11:29:47

1.5K0

发布于 2018-10-24 11:29:47

文章被收录于专栏：机器学习养成记

翻译了一篇博文，原文pdf可后台回复“最小二乘”下载。

当面试时问到最小二乘损失函数的基础数学知识时，你会怎么回答？

Q: 为什么在回归中将误差求平方？

A：因为可以把所有误差转化为正数。

Q：为什么不直接用绝对值将误差转为正数？

A：因为绝对值函数不是处处可导。

Q：这个在数值算法中不成问题，LASSO回归中就用到了绝对值。而且，为什么不是计算x的4次方，或log(1+x^2)?将误差进行乘方计算有什么好处？

A：呃...

基础：贝叶斯定理和“最可能假设”

贝叶斯定理可能是机器学习和人工智能涉及到的概率论知识中，最有影响的定理。贝叶斯公式如下：

这个式子告诉我们，根据数据（可能性函数），更新假设（先验概率），并且将先验概率的更新程度分配给后验概率。

下面我们用数据科学符号重新写一下这个公式，用D表示数据，h表示假设。

一般来说，我们有一个大的（通常是无限的）假设空间，即许多假设可供选择。贝叶斯推理的本质是通过检验数据，使最可能产生观测数据的假设概率最大化。我们想求P(h|D)的argmax，即给定D下，h概率最大。

捷径：最大似然

上述方程看似简单，但在实践中计算起来却很难。因为在复杂的概率分布函数上求积分的假设空间非常大，且计算复杂。然而，在我们寻找“给定数据的最可能假设”的过程中，我们可以进一步简化它。

简化后的最大似然假设如下（式一）：

这意味着最可能的假设是观测数据的条件概率达到最大值的假设。

另一个问题：噪音

在进行简单的回归时，通常都会将误差进行最小二乘处理，且这个方法在几乎所有有监督算法中都有使用，如：线性模型，决策树等。结果表明，最小二乘误差与贝叶斯推理的关键联系在于误差或残差的假设性质。测量/观测数据决不是无误差的，并且总是存在与数据相关联的随机噪声，这可以认为是数据特征重要性的信号。机器学习算法的任务是通过从噪声中分离信号来估计/近似可能产生数据的函数。但是我们怎么描述这种噪音的性质？事实证明，噪声可以做为建模中等一个随机变量。因此，我们可以把我们的选择的概率分布与这个随机变量联系起来。最小二乘优化的一个关键假设是残差上的概率分布是我们信任的老朋友——高斯正态。也就是说，在监督学习训练集中的每个点d，都可以写成一个未知函数f(x)和误差项的和，且这个误差项服从正态分布（式二）：