深入机器学习系列3-逻辑回归

1 二元逻辑回归

回归是一种很容易理解的模型,就相当于y=f(x),表明自变量x与因变量y的关系。最常见问题如医生治病时的望、闻、问、切,之后判定病人是否生病或生了什么病, 其中的望、闻、问、切就是获取的自变量x,即特征数据,判断是否生病就相当于获取因变量y,即预测分类。最简单的回归是线性回归,但是线性回归的鲁棒性很差。

逻辑回归是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型,其回归方程与回归曲线如下图所示。逻辑曲线在z=0时,十分敏感,在z>>0或z

逻辑回归其实是在线性回归的基础上,套用了一个逻辑函数。上图的g(z)就是这个逻辑函数(或称为Sigmoid函数)。下面左图是一个线性的决策边界,右图是非线性的决策边界。

对于线性边界的情况,边界形式可以归纳为如下公式**(1)**:

因此我们可以构造预测函数为如下公式**(2)**:

该预测函数表示分类结果为1时的概率。因此对于输入点x,分类结果为类别1和类别0的概率分别为如下公式**(3)**:

对于训练数据集,特征数据x=和对应的分类数据y=。构建逻辑回归模型f,最典型的构建方法便是应用极大似然估计。对公式**(3)取极大似然函数,可以得到如下的公式(4)**:

再对公式**(4)取对数,可得到公式(5)**:

最大似然估计就是求使l取最大值时的theta。MLlib中提供了两种方法来求这个参数,分别是梯度下降法和L-BFGS。

2 多元逻辑回归

二元逻辑回归可以一般化为多元逻辑回归用来训练和预测多分类问题。对于多分类问题,算法将会训练出一个多元逻辑回归模型, 它包含K-1个二元回归模型。给定一个数据点,K-1个模型都会运行,概率最大的类别将会被选为预测类别。

对于输入点x,分类结果为各类别的概率分别为如下公式**(6)**,其中k表示类别个数。

对于k类的多分类问题,模型的权重w = (w_1, w_2, ..., w_)是一个矩阵,如果添加截距,矩阵的维度为(K-1) * (N+1),否则为(K-1) * N。单个样本的目标函数的损失函数可以写成如下公式**(7)**的形式。

对损失函数求一阶导数,我们可以得到下面的公式**(8)**:

根据上面的公式,如果某些margin的值大于709.78,multiplier以及逻辑函数的计算会出现算术溢出(arithmetic overflow)的情况。这个问题发生在有离群点远离超平面的情况下。 幸运的是,当max(margins) = maxMargin > 0时,损失函数可以重写为如下公式**(9)**的形式。

同理,multiplier也可以重写为如下公式**(10)**的形式。

3 逻辑回归的优缺点

优点:计算代价低,速度快,容易理解和实现。

缺点:容易欠拟合,分类和回归的精度不高。

4 实例

小提示:代码块部分可以左右滑动查看噢

下面的例子展示了如何使用逻辑回归。

5 源码分析

5.1 训练模型

如上所述,在MLlib中,分别使用了梯度下降法和L-BFGS实现逻辑回归参数的计算。这两个算法的实现我们会在最优化章节介绍,这里我们介绍公共的部分。

LogisticRegressionWithLBFGS和LogisticRegressionWithSGD的入口函数均是GeneralizedLinearAlgorithm.run,下面详细分析该方法。

上面的代码初始化权重向量,向量的值均初始化为0。需要注意的是,addIntercept表示是否添加截距(Intercept,指函数图形与坐标的交点到原点的距离),默认是不添加的。numOfLinearPredictor表示二元逻辑回归模型的个数。 我们重点看run(input, initialWeights)的实现。它的实现分四步。

5.1.1 根据提供的参数缩放特征并添加截距

在最优化过程中,收敛速度依赖于训练数据集的条件数(condition number),缩放变量经常可以启发式地减少这些条件数,提高收敛速度。不减少条件数,一些混合有不同范围列的数据集可能不能收敛。 在这里使用StandardScaler将数据集的特征进行缩放。详细信息请看StandardScaler。appendBias方法很简单,就是在每个向量后面加一个值为1的项。

5.1.2 使用最优化算法计算最终的权重值

有梯度下降算法和L-BFGS两种算法来计算最终的权重值,查看梯度下降法和L-BFGS了解详细实现。 这两种算法均使用Gradient的实现类计算梯度,使用Updater的实现类更新参数。在 LogisticRegressionWithSGD 和 LogisticRegressionWithLBFGS 中,它们均使用 LogisticGradient 实现类计算梯度,使用 SquaredL2Updater 实现类更新参数。

下面将详细介绍LogisticGradient的实现和SquaredL2Updater的实现。

LogisticGradient

LogisticGradient中使用compute方法计算梯度。计算分为两种情况,即二元逻辑回归的情况和多元逻辑回归的情况。虽然多元逻辑回归也可以实现二元分类,但是为了效率,compute方法仍然实现了一个二元逻辑回归的版本。

这里的multiplier就是上文的公式**(2)**。axpy方法用于计算梯度,这里表示的意思是h(x) * x。下面是多元逻辑回归的实现方法。

SquaredL2Updater

该函数的实现规则是:

这里thisIterStepSize表示参数沿负梯度方向改变的速率,它随着迭代次数的增多而减小。

5.1.3 对最终的权重值进行后处理

该段代码获得了截距(intercept)以及最终的权重值。由于截距(intercept)和权重是在收缩的空间进行训练的,所以我们需要再把它们转换到原始的空间。数学知识告诉我们,如果我们仅仅执行标准化而没有减去均值,即withStd = true, withMean = false, 那么截距(intercept)的值并不会发送改变。所以下面的代码仅仅处理权重向量。

5.1.4 创建模型

5.2 预测

训练完模型之后,我们就可以通过训练的模型计算得到测试数据的分类信息。predictPoint用来预测分类信息。它针对二分类和多分类,分别进行处理。

二分类的情况

我们可以看到1.0 / (1.0 + math.exp(-margin))就是上文提到的逻辑函数即sigmoid函数。

多分类情况

该段代码计算并找到最大的margin。如果maxMargin为负,那么第一类是该数据的类别。

参考文献

【1】逻辑回归模型(Logistic Regression, LR)基础

【2】逻辑回归

本文来自企鹅号 - 星环科技媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

Python实现--元算法、AdaBoost

第一节,元算法略述 遇到罕见病例时,医院会组织专家团进行临床会诊共同分析病例以判定结果。如同专家团临床会诊一样,重大决定汇总多个人的意见往往胜过一个人的决定。机...

39660
来自专栏ATYUN订阅号

【行业】2018年你应该知道的十大机器学习算法

本文简要介绍一些最常用的机器学习算法,没有代码,没有抽象理论,只有图片和一些如何使用它们的例子。

13040
来自专栏ATYUN订阅号

5种主要聚类算法的简单介绍

AiTechYun 编辑:Yining 聚类是一种机器学习技术,它涉及到数据点的分组。给定一组数据点,我们可以使用聚类算法将每个数据点划分为一个特定的组。理论上...

33140
来自专栏人工智能

神经网络的基础-逻辑回归

练习数据和代码那必须是每一期都有的,文末查看获取方式。 大家好,今天给大家介绍的算法叫做逻辑回归。 从名字入手,逻辑回归嘛,它肯定是回归的一种,还记得我们之前讲...

24860
来自专栏磐创AI技术团队的专栏

支持向量机原理讲解(一)

15450
来自专栏大数据挖掘DT机器学习

用NN(神经网络)实现数据的降维理论及练习

数据降维的重要性就不必说了,而用NN(神经网络)来对数据进行大量的降维是从2006开始的,这起源于2006年science上的一篇文章:reducing the...

67090
来自专栏技术翻译

带你了解什么是卷积神经网络

CNN在图像处理和视频处理领域有着广泛的应用。在这篇文章中,我将详细介绍卷积神经网络是如何进化的,以及为什么它们在图像领域如此出色。在此基础上,我们将建立一个使...

40200
来自专栏云时之间

NLP系列学习:CNN文本分类

这一篇文章主要是记录下自己阅读《Convolutional Neural Networks for Sentence Classification》这篇文章思路...

18750
来自专栏机器学习算法工程师

风格迁移原理及tensorflow实现-附代码

作者:刘威威 编辑:田 旭 前 言 本文将详细介绍 tf 实现风格迁移的小demo,看完这篇就可以去实现自己的风格迁移了,复现的算法来自论文 Percept...

2.1K80
来自专栏机器学习算法工程师

从AlexNet剖析-卷积网络CNN的一般结构

作者:张旭 编辑:王抒伟 算了 想看多久看多久 零 参考目录: 一、卷积层 1.CNN中卷积层的作用 2.卷积层如何...

93450

扫码关注云+社区

领取腾讯云代金券