线性回归回顾与logistic回归 | 机器学习笔记

01 再看线性回归

之前我们选择线性回归的时候,只是认为那些数据看上去很符合线性的样子,选择最小平方损失函数的时候,也是直接提出来的,没有考虑过为什么会是这个样子。接下来就从概率的角度来解释这些问题。

首先假设目标变量和输入与下面这个方程相关:

其中\varepsilon^{(i)} 是一个误差项(error term),来捕捉一些我们建模的时候故意或者无意忽略但是对于预测有影响的因素。有时候也可以作为一个随机的噪声(random noise)。“误差项(噪声项)”的引入允许我们获得参数值和预测的置信程度。

我们进一步假设\varepsilon^{(i)} 独立同分布且服从均值为0,方差为\sigma ^{2} 高斯分布,那么我们能够把这个假设写为\varepsilon^{(i)}\thicksim N(0,\sigma^{2}) ,即\varepsilon^{(i)} 的概率密度是:

那么根据高斯分布的性质,这时候的输出y也是一个随机变量。且有

,即:

这里提示一下,很重要的一个记号,在论文里面经常看见。

表示θ做参数,随机变量x^{(i)}y^{(i)} 的分布。 这里再提示一下,连续随机变量密度函数上的取值并不代表概率。连续随机变量在每一点上面的概率都是0。这是基础知识,别忘了。要是密度函数上面A点的值很大,B点的值很小。只能够说明在A点附近的可能性很大。也就是说,虽然在某点上的概率是多少是错的,但是我们还是需要在密度函数上面找最值,因为这个点“附近”的概率是最大的。

一般来说,我们感兴趣的并不是单个数据点的似然值,而是整个数据集上面所有点的似然值。要是有m个数据点,我们感兴趣的就是他们的联合条件密度,且因为各自独立,有:

上面那个记号就是联合条件密度的记号,不要在其中想太多。

写成向量更紧缩的形式:p(y|X;\theta) 其中,

同样也仅仅是写的更加简洁一点,也别在上面想太多。 令:

我们把这个函数叫做似然函数(likelihood function),是以θ为变量的函数。

通过前面的原理可以知道

本质就是把之前的几个公式代进去了而已,不用解释了。

这个公式的意思也很容易理解。怎么选择θ使得整个似然函数有最大的值,也就是让\theta^{T}x^{(i)} 更加接近于y^{(i)} 。这个地方有点难想,多理解几遍。

学过概率论的都知道,接下来要对数化一下,使得方程更加容易解出来。没有什么技巧,暴力推导如下:

我们的目的是要大化L(θ),那么只需要最小化

这个函数就行了。

对于这个函数是不是有点眼熟呢?就是之前的最小均方误差了。

因为这里是

这种形式,刚好和之前的是反的。所以在用梯度法求的时候,就不是梯度下降法了,而是梯度上升法。

到这里,对于线性回归的回顾就到这里了,这里引出了概率的方法来做机器学习的推导,对于理解下面的logistic的推导是有帮助的。

02

Logistic回归

1.背景

logistic回归是非常进经典的分类的方法,分类问题在第一个笔记有详细的介绍。他和回归的区别就是他的y值是离散的值,比如有3个类,分别是0类,1类和2类这样子。

我们这里讨论的分类问题主要是2分类问题,就是最后的结果只有两类,姑且定做0类(负类)和1类(正类)。那么y的值就为0或者1。

把hypotheses h_{\theta}(x) 改写成另外的形式

其中

这个函数就叫做logistic函数或者sigmoid函数

当的时候,sigmoid函数值为0.5.然后随着z的值越大,函数越趋向于1;随着x的值越小,x的值越趋向于0.

因为这样,那么当一个数据丢进sigmoid函数中得到的值大于0.5,那么就可以把它归为1类.反之,当得到的值小于0.5,那么就把它归为0类.

最终,不管你丢进去什么值,最终的结果就会在0和1之间。

然后这个函数的导数可以很容易推得

这个性质很重要,不管是在计算里面还是在证明里面。

2.梯度下降学习

首先我们假设

这个限制表示有且只会有两个结果。 上面的可以写为

假设我们提供的训练的例子都是独立同分布的。我们能够写出似然函数为:

对数似然函数为:

之前我们说过,我们想要得到参数的表达式,需要最大化(对数)似然函数。

如果你数学足够好的话,你也许能够手推上面这个似然函数的最值。但是,这几乎是没有意义的。

我们可以使用梯度上升的方法来逼近近似,这是计算机容易实现的,扩展性比手算要好的方式。

那么问题就转化为怎么算出某个\theta_{j} 的偏导。

暴力手推:

在上面的推导中,用到了前面提到的那个logistic函数导数的公式。 最终的梯度更新公式为

这个更新公式和线性回归的公式是差不多的。

原文发布于微信公众号 - 人工智能LeadAI(atleadai)

原文发表时间:2017-09-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏编程

从零开始学习Gradient Boosting算法

-欢迎 加入AI技术专家社群>> 一、主要目的 虽然大多数Kaggle竞赛获胜者使用各种模型的叠加/集合,但是一个特定的模式是大部分集合的部分是梯度提升(GBM...

2279
来自专栏IT派

深度学习的三大生成模型:VAE、GAN、GAN

导语:本章将为读者介绍基于深度学习的生成模型。前面几章主要介绍了机器学习中的判别式模型,这种模型的形式主要是根据原始图像推测图像具备的一些性质,例如根据数字图像...

1K9
来自专栏数据科学与人工智能

【算法】word2vec与doc2vec模型

小编邀请您,先思考: 1 word2vec算法原理是什么? 2 word2vec与doc2vec有什么差异? 3 如何做word2vec和doc2vec? 深度...

6147
来自专栏人工智能LeadAI

深度学习的三大生成模型:VAE、GAN、GAN

本章将为读者介绍基于深度学习的生成模型。这种模型的形式主要是根据原始图像推测图像具备的一些性质,例如根据数字图像推测数字的名称,根据自然场景图像推测物体的边界;...

4488
来自专栏机器之心

神经网络求解新思路:OpenAI用线性网络计算非线性问题

AI选自OpenAI 作者:JAKOB FOERSTER 机器之心编译 使用线性网络进行非线性计算是一种特立独行的思路,近日,OpenAI 发布了一篇博客,介绍...

2956
来自专栏机器之心

学界 | 最大化互信息来学习深度表示,Bengio等提出Deep INFOMAX

在意识层面上,智能体并不在像素和其他传感器的层面上进行预测和规划,而是在抽象层面上进行预测。因为语义相关的比特数量(在语音中,例如音素、说话者的身份、韵律等)只...

1271
来自专栏人工智能头条

基于深度学习的三大生成模型:VAE、GAN、GAN的变种模型

2163
来自专栏mantou大数据

[机器学习Lesson4]多元线性回归

在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自...

71618
来自专栏Python中文社区

机器学习算法实践-朴素贝叶斯(Naive Bayes)

專 欄 ❈PytLab,Python 中文社区专栏作者。主要从事科学计算与高性能计算领域的应用,主要语言为Python,C,C++。熟悉数值算法(最优化方法,...

2645
来自专栏机器之心

教程 | 如何使用深度学习执行文本实体提取

选自TowardsDataScience 作者:Dhanoop Karunakaran等 机器之心编译 参与:Tianci LIU、路 本文介绍了如何使用深度学...

3756

扫码关注云+社区