曲线拟合的几种解释

曲线拟合是一个经典的问题,将其数学化后是:已知训练数据x\bf{x}和对应的目标值t\bf{t}。通过构建参数为w\bf{w}的模型,当新的xx出现,对应的tt是多少。

本文将从误差和概率的角度探讨如何解决曲线拟合的问题,具体地,将阐述以下概念:

  • 误差函数
  • 正则化
  • 最大似然估计(MLE)
  • 最大后验估计(MAP)
  • 贝叶斯

误差角度

误差函数

直观的解决思路是最小化训练误差,公式如下:

minw12∑n=1N{y(xn,w)−tn}2

\min_w \frac{1}{2}\sum_{n=1}^N\{ y(x_n,\textbf{w}) -t_n\}^2

正则化

上面的方法会遇到过拟合的问题,所以可以加上正则化的参数避免过拟合,改进后的公式如下:

minw12∑n=1N{y(xn,w)−tn}2+λ2∥w∥2

\min_w \frac{1}{2}\sum_{n=1}^N\{ y(x_n,\textbf{w}) -t_n\}^2+\frac{\lambda}{2} \Vert \textbf{w} \Vert ^2

概率角度

高斯分布假设

假设每个点都服从均值不一样方差一样的高斯分布,均值为y(xn,w) y(x_n,\textbf{w}),方差为β−1\beta^{-1}。那么,每个点的的概率分布是:

p(t|x,w,β)=N(y(xn,w),β−1)

p(t|x,\textbf{w},\beta) =N(y(x_n,\textbf{w}),\beta^{-1})

最大似然估计

为了求出上面的概率分布,首先要求出模型w\textbf{w}的值,假设每个点之间相互独立,那么似然函数为:

p(t|x,w,β)=∏n=1NN(tn|y(xn,w),β−1)

p(\textbf{t}|\textbf{x},\textbf{w},\beta) =\prod_{n=1}^N N(t_n|y(x_n,\textbf{w}),\beta^{-1})

对上式取log,并最大化,得到:

maxwlnp(t|x,w,β)=−β2∑n=1N{y(xn,w)−tn}2+N2lnβ−N2ln(2π)

\max_{\textbf{w}} \ln p(\textbf{t}|\textbf{x},\textbf{w},\beta) = -\frac{\beta}{2}\sum_{n=1}^N\{ y(x_n,\textbf{w}) -t_n\}^2 + \frac{N}{2}\ln\beta-\frac{N}{2} \ln (2\pi)

计算w\textbf{w}只和上式右边的第一项有关,可以看到,最大似然的结果等同于误差函数的结果,也就是MLE等同于sum squared error function。

最大后验估计

根据MLE,我们可以得到模型w\textbf{w}的参数,并且可以计算出p(t|x,w,β)p(\textbf{t}|\textbf{x},\textbf{w},\beta)似然函数进而求得对应点的值,可是这样同样存在过拟合的问题,为了解决这个问题,我们引入了先验估计,并结合似然函数计算出了后验估计。

假设w\textbf{w}的先验估计如下:

p(w|α)=N(w|0,α−1I)

p(\textbf{w} | \alpha) = N(\textbf{w}|\textbf{0},\alpha^{-1}\textbf{I})

根据后验估计等于似然函数乘以先验估计,也就是

p(w|x,t,α,β)∝$p(t|x,w,β)p(w|α)

p(\textbf{w}|\textbf{x},\textbf{t},\alpha,\beta) \propto $p(\textbf{t}|\textbf{x},\textbf{w},\beta) p(\textbf{w} | \alpha)

同样适用最大似然估计的方法,不过这里不是作用在似然函数上,而是作用在后验分布上,我们得到:

minwβ2∑n=1N{y(xn,w)−tn}2+α2∥w∥2

\min_w \frac{\beta}{2}\sum_{n=1}^N\{ y(x_n,\textbf{w}) -t_n\}^2+\frac{\alpha}{2} \Vert \textbf{w} \Vert ^2

因此可以看到:

  • 最大化似然函数等同于最小化SSE。
  • 最大化后验分布等同于最小化SSE加上regulation。

贝叶斯

所谓贝叶斯,就是多次重复使用概率中的和规则和积规则。

为了方便,下文中认为α,β\alpha,\beta是固定的,在公式中省略了这两者,公式如下:

p(t|x,x,t)=∫p(t|x,w)p(w|x,t)dw

p(t|x,\textbf{x,t}) =\int p(t|x,\textbf{w}) p(\textbf{w}|\textbf{x},\textbf{t}) \textbf{dw}

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

译:支持向量机(SVM)及其参数调整的简单教程(Python和R)

一、介绍 数据分类是机器学习中非常重要的任务。支持向量机(SVM)广泛应用于模式分类和非线性回归领域。 SVM算法的原始形式由Vladimir N.Vapnik...

4338
来自专栏机器学习算法与Python学习

机器学习(3)之最大似然估计

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 最大似然估计 上一篇(机器学习(2)...

2636
来自专栏真皮专栏

Neural Network

重新回顾一下一开始学的PLA,preceptron learning Algorithm。PLA适用于二维及高维的线性可分的情况,如果是非线性可分的数据,如果使...

681
来自专栏大数据挖掘DT机器学习

支持向量机(SVM)入门详解(续)与python实现

接前文 支持向量机SVM入门详解:那些你需要消化的知识 让我再一次比较完整的重复一下我们要解决的问题:我们有属于两个类别的样本点(并不限定这些点在二维空间中)若...

2768
来自专栏IT派

机器学习中的算法:支持向量机(SVM)基础

导语:最近一段时间看了看关于SVM(Support Vector Machine)的文章,觉得SVM是一个非常有趣,而且自成一派的方向,所以今天准备写一篇关于关...

3526
来自专栏YG小书屋

深度学习之Logistic Regression

2056
来自专栏深度学习与计算机视觉

Hinge loss

原文链接:Hinge loss Hinge loss 在机器学习中,hinge loss常作为分类器训练时的损失函数。hinge loss用于“最大间隔”分类,...

2169
来自专栏企鹅号快讯

受限玻尔兹曼机

关注AI君,领略人工智能之美 受限玻尔兹曼机 Restricted Bolltzmann Machine 概述 各位读者,新年好! 在《技术词条》系列文章的上一...

2079
来自专栏深度学习之tensorflow实战篇

贝叶斯的概率推到,朴素贝叶斯分类器及Python实现

在了解贝叶算法前:要有一定的概率与数理统计基础以及注意事项 条件概率 首先,理解这两个公式的前提是理解条件概率,因此先复习条件概率。 P(A|B)=P(AB...

3466
来自专栏真皮专栏

EM Algorithm

EM算法和之前学的都不太一样,EM算法更多的是一种思想,所以后面用几个例子讲解,同时也会重点讲解GMM高斯混合模型。

1364

扫码关注云+社区