首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

深入机器学习系列3-逻辑回归

1 二元逻辑回归

回归是一种很容易理解的模型,就相当于y=f(x),表明自变量x与因变量y的关系。最常见问题如医生治病时的望、闻、问、切,之后判定病人是否生病或生了什么病, 其中的望、闻、问、切就是获取的自变量x,即特征数据,判断是否生病就相当于获取因变量y,即预测分类。最简单的回归是线性回归,但是线性回归的鲁棒性很差。

逻辑回归是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型,其回归方程与回归曲线如下图所示。逻辑曲线在z=0时,十分敏感,在z>>0或z

逻辑回归其实是在线性回归的基础上,套用了一个逻辑函数。上图的g(z)就是这个逻辑函数(或称为Sigmoid函数)。下面左图是一个线性的决策边界,右图是非线性的决策边界。

对于线性边界的情况,边界形式可以归纳为如下公式**(1)**:

因此我们可以构造预测函数为如下公式**(2)**:

该预测函数表示分类结果为1时的概率。因此对于输入点x,分类结果为类别1和类别0的概率分别为如下公式**(3)**:

对于训练数据集,特征数据x=和对应的分类数据y=。构建逻辑回归模型f,最典型的构建方法便是应用极大似然估计。对公式**(3)取极大似然函数,可以得到如下的公式(4)**:

再对公式**(4)取对数,可得到公式(5)**:

最大似然估计就是求使l取最大值时的theta。MLlib中提供了两种方法来求这个参数,分别是梯度下降法和L-BFGS。

2 多元逻辑回归

二元逻辑回归可以一般化为多元逻辑回归用来训练和预测多分类问题。对于多分类问题,算法将会训练出一个多元逻辑回归模型, 它包含K-1个二元回归模型。给定一个数据点,K-1个模型都会运行,概率最大的类别将会被选为预测类别。

对于输入点x,分类结果为各类别的概率分别为如下公式**(6)**,其中k表示类别个数。

对于k类的多分类问题,模型的权重w = (w_1, w_2, ..., w_)是一个矩阵,如果添加截距,矩阵的维度为(K-1) * (N+1),否则为(K-1) * N。单个样本的目标函数的损失函数可以写成如下公式**(7)**的形式。

对损失函数求一阶导数,我们可以得到下面的公式**(8)**:

根据上面的公式,如果某些margin的值大于709.78,multiplier以及逻辑函数的计算会出现算术溢出(arithmetic overflow)的情况。这个问题发生在有离群点远离超平面的情况下。 幸运的是,当max(margins) = maxMargin > 0时,损失函数可以重写为如下公式**(9)**的形式。

同理,multiplier也可以重写为如下公式**(10)**的形式。

3 逻辑回归的优缺点

优点:计算代价低,速度快,容易理解和实现。

缺点:容易欠拟合,分类和回归的精度不高。

4 实例

小提示:代码块部分可以左右滑动查看噢

下面的例子展示了如何使用逻辑回归。

5 源码分析

5.1 训练模型

如上所述,在MLlib中,分别使用了梯度下降法和L-BFGS实现逻辑回归参数的计算。这两个算法的实现我们会在最优化章节介绍,这里我们介绍公共的部分。

LogisticRegressionWithLBFGS和LogisticRegressionWithSGD的入口函数均是GeneralizedLinearAlgorithm.run,下面详细分析该方法。

上面的代码初始化权重向量,向量的值均初始化为0。需要注意的是,addIntercept表示是否添加截距(Intercept,指函数图形与坐标的交点到原点的距离),默认是不添加的。numOfLinearPredictor表示二元逻辑回归模型的个数。 我们重点看run(input, initialWeights)的实现。它的实现分四步。

5.1.1 根据提供的参数缩放特征并添加截距

在最优化过程中,收敛速度依赖于训练数据集的条件数(condition number),缩放变量经常可以启发式地减少这些条件数,提高收敛速度。不减少条件数,一些混合有不同范围列的数据集可能不能收敛。 在这里使用StandardScaler将数据集的特征进行缩放。详细信息请看StandardScaler。appendBias方法很简单,就是在每个向量后面加一个值为1的项。

5.1.2 使用最优化算法计算最终的权重值

有梯度下降算法和L-BFGS两种算法来计算最终的权重值,查看梯度下降法和L-BFGS了解详细实现。 这两种算法均使用Gradient的实现类计算梯度,使用Updater的实现类更新参数。在 LogisticRegressionWithSGD 和 LogisticRegressionWithLBFGS 中,它们均使用 LogisticGradient 实现类计算梯度,使用 SquaredL2Updater 实现类更新参数。

下面将详细介绍LogisticGradient的实现和SquaredL2Updater的实现。

LogisticGradient

LogisticGradient中使用compute方法计算梯度。计算分为两种情况,即二元逻辑回归的情况和多元逻辑回归的情况。虽然多元逻辑回归也可以实现二元分类,但是为了效率,compute方法仍然实现了一个二元逻辑回归的版本。

这里的multiplier就是上文的公式**(2)**。axpy方法用于计算梯度,这里表示的意思是h(x) * x。下面是多元逻辑回归的实现方法。

SquaredL2Updater

该函数的实现规则是:

这里thisIterStepSize表示参数沿负梯度方向改变的速率,它随着迭代次数的增多而减小。

5.1.3 对最终的权重值进行后处理

该段代码获得了截距(intercept)以及最终的权重值。由于截距(intercept)和权重是在收缩的空间进行训练的,所以我们需要再把它们转换到原始的空间。数学知识告诉我们,如果我们仅仅执行标准化而没有减去均值,即withStd = true, withMean = false, 那么截距(intercept)的值并不会发送改变。所以下面的代码仅仅处理权重向量。

5.1.4 创建模型

5.2 预测

训练完模型之后,我们就可以通过训练的模型计算得到测试数据的分类信息。predictPoint用来预测分类信息。它针对二分类和多分类,分别进行处理。

二分类的情况

我们可以看到1.0 / (1.0 + math.exp(-margin))就是上文提到的逻辑函数即sigmoid函数。

多分类情况

该段代码计算并找到最大的margin。如果maxMargin为负,那么第一类是该数据的类别。

参考文献

【1】逻辑回归模型(Logistic Regression, LR)基础

【2】逻辑回归

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171222B0420W00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券