logistics判别与线性模型中的4个问题

作者:陈浩然,北京大学智能科学专业,个人网址:chrer.com

北大才女陈浩然机器学习笔记系列文章:

北大才女总结:机器学习的概念、历史和未来

北大才女笔记:这样学习线性回归和梯度下降(上篇)

北大陈浩然笔记:特征缩放和泛化能力(下篇)

0

引言

之前说过,机器学习的两大任务是回归分类,上章的线性回归模型适合进行回归分析,例如预测房价,但是当输出的结果为离散值时,线性回归模型就不适用了。我们的任务是:将回归分析中的实数值转化为离散值或者对于离散值的概率。

1

logistic判别

转换函数

例如我们进行癌症判定,回归模型可以输出癌症几率a,并且 a∈(0,1),而我们的任务是将几率转化为0、1两个结果(例如0表示无癌,1表示患癌)。

如果我们使用前一章的线性回归模型,可以认为>0.5的结果看成1,<0.5的结果看成0,便可以得到下列的转换函数:

这个公式看上去十分直观,但是有一些明显的缺点:

  1. 并非所有的连续值都可以均匀映射在[0,1]之间,例如人的身高在区间[120,250]之间,但是大部分人身高都取在该区间的中值,两端较少。
  2. 一些极端值可能会大大影响分类的效果,例如出现了一个身高0.7m的侏儒病患者,则映射区间变成了[70,250]->[0,1],原来的中值180可能在这种情况下只能映射为0.3,使得分类效果变差。如下图所示:

为了解决以上这些问题,我们提出了一个特殊的转换函数,对数几率函数,又称sigmoid函数

其图像如下:

可以很明显的看出,该函数将实数域映射成了[0,1]的区间,带入我们的线性回归方程,可得:

于是,无论线性回归取何值,我们都可以将其转化为[0,1]之间的值,经过变换可知:

故在该函数中,

代表了 x 为正例的可行性大小,由于含有对数,所以称为对数几率,其中y为正例几率,1-y为反例几率。

所以在算法中,最终得到的结果y便代表是正例的几率,它在[0,1]之间,一般而言,如果y大于0.5,我们将其视为正例,如果y小于0.5,我们将其视为反例

2

更新策略

我们将转换函数

称为

这是原本的线性回归

和sigmoid函数

结合得到的。

由于这个函数并不是凸函数,直接带入我们之前的梯度下降策略是无效的,得不到优化的结果,所以要更换梯度下降策略。

定义新的代价函数:

观察该式可知,无论y取0还是1,当

与y差距越大,代价函数值越大,且趋于正无穷,代价函数取值范围为

将上面的代价函数写成另一种形式,便于进行求导:

将所有的数据项代价累计起来,得到最终的代价函数形式:

对于该函数使用梯度下降,分别对每一个 w 的每一项进行求导和更新即可。

3

正则化

当我们利用线性回归拟合数据时,为了拟合较为复杂的数据,可能会引入较多的参数,例如:

我们可能会得到下面两种图像:

理想情况下,我们的算法应该得到左边的图像,而右边的图像显然有过拟合的倾向。

在统计学中,过拟合(英语:overfitting,或称过度拟合)现象是指在拟合一个统计模型时,使用过多参数。对比于可获取的数据总量来说,一个荒谬的模型只要足够复杂,是可以完美地适应数据。过拟合一般可以视为违反奥卡姆剃刀原则。当可选择的参数的自由度超过数据所包含信息内容时,这会导致最后(拟合后)模型使用任意的参数,这会减少或破坏模型一般化的能力更甚于适应数据。过拟合的可能性不只取决于参数个数和数据,也跟模型架构与数据的一致性有关。此外对比于数据中预期的噪声或错误数量,跟模型错误的数量也有关。

如果算法效果较好,即使我们在初始部分选择了很多个参数,如上文的

理想的算法也应该尽量使

接近0,使得实际的得到的拟合曲线应该如左图所示,为解决该问题,我们引入了正则化项。

4

正则化线性回归

为了解决过拟合的问题,我们应该引入一个参数项,使得在进行梯度下降的时候尽可能使得参数变小,这样可以使得很多额外的变量的系数接近于0。 更新线性回归的代价函数:

接着进行梯度下降即可。

5

多分类问题

logistics判别解决的是二分类问题,那么应该如何解决多分类问题呢?一般采用拆解法,来将多分类问题分解成多个二分类问题。

一般而言有三种经典的拆分方法:

  • 一对一:假如某个分类中有N个类别,我们将这N个类别进行两两配对(两两配对后转化为二分类问题)。那么我们可以得到

个二分类器。之后在测试阶段,我们把新样本交给这个二分类器。于是我们可以得到个分类结果。把预测的最多的类别作为预测的结果。

  • 一对其余:一对其余其实更加好理解,每次将一个类别作为正类,其余类别作为负类。此时共有(N个分类器)。在测试的时候若仅有一个分类器预测为正类,则对应的类别标记为最终的分类结果。若有多个分类器预测为正类,则选择概率最大的那个。
  • 多对多:所谓多对多其实就是把多个类别作为正类,多个类别作为负类。该种方法比较复杂,这里推荐一个常用的方法:ECOC纠错码方法,这种方法简而言之,就是N个类别做多次划分形成M个分类器,用这M个分类器分别对N个类别进行识别,正例为1,负例为0,形成了M位的01编码,对于任何测试数据,形成其01编码,分别和N个类别的01编码进行比较,计算编码的距离,选取最近的类别作为测试数据的类别。

6

类别不均衡问题

想象我们在做一个预测罕见病A的机器学习模型,但是该病十分罕见,我们一万个数据中只有8个病例,那么模型只需要将所有的数据都预测为无病,即可达到99.92%的超高预测成功率,但是显然这个模型不符合要求。 那么对于这种数据集中类别不平衡的问题,该如何解决呢?目前主要有三种方法:

  • 欠采样:去除一些数目过多的类别的数据,使得不同类别的数据数目接近。
    • 优点:不需要重新收集数据,训练速度快
    • 缺点:使用的数据集远小于原数据集,可能丢失重要信息
  • 过采样:增加数目小的类别的数据,使得不同类别的数据数目接近。
    • 优点:不丢失信息,数据集较大
    • 缺点:若对数目少的数据进行重复采样会造成过拟合的问题,训练时间
  • 阈值移动:我们在之前logistics判别中说过,

我们通过

的值来判断正例负例,之前我们的判断依据是

,阈值为1,我们设定新的阈值

其中

分别代表负例和正例的数目,如果两者接近,该阈值就为1。

原文发布于微信公众号 - Python与机器学习算法频道(alg-channel)

原文发表时间:2018-07-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

Adobe 写实深度摄影风格迁移,局部仿射解决画面扭曲

【新智元导读】康奈尔大学和 Adobe 团队的这项图像风格迁移研究,解决了神经网络风格迁移中由于参考图像风格夸张而产生的的输出图像“扭曲”的问题,在各种场景下得...

3235
来自专栏瓜大三哥

竞争型神经网络

自组织神经网络(self-Organization Mapping net,SOM)是基于无监督学习方法的神经网络的一种重要类型。自组织神经网络是神经网络最富有...

3815
来自专栏人工智能头条

王晓刚:图像识别中的深度学习

3492
来自专栏机器学习算法工程师

AI从业者搞懂---这10种深度学习方法---老婆孩子热炕头

作者:王抒伟 编辑:王抒伟 首先,让我们来看看主要有啥 1 1.机器学习 过去的十年里已经爆炸了。 大伙几乎每天都会在计算机科学计划,行业会议和各大公众号看到...

4788
来自专栏专知

【ICLR2018 最高分论文】利用分布鲁棒优化方法应对对抗样本干扰

【导读】近日,深度学习顶会ICLR2018评审结果出炉,得分最高的论文是 《Certifiable Distributional Robustness with...

5975
来自专栏机器学习和数学

[编程经验] TensorFlow实现非线性支持向量机

上一次说的是线性支持向量机的原理和tf实现问题,把SVM的原理简单用公式推导了一下,SVM这块还有几个问题没有解释,比如经验风险,结构风险,VC维,松弛变量等。...

5047
来自专栏AI科技评论

总结 | 优必选悉尼AI研究院何诗怡:基于课程学习的强化多标签图像分类算法

与单标签图像分类相比,多标签图像分类是一种更符合真实世界客观规律的方法,尤其在图像和视频的语义标注,基于内容的图像检索等领域有着广泛的应用。

1963
来自专栏机器之心

无需数学背景,读懂ResNet、Inception和Xception三大变革性架构

4299
来自专栏用户2442861的专栏

深层学习为何要“Deep”(上)

http://blog.csdn.net/u010751535/article/details/52739803

2451
来自专栏决胜机器学习

机器学习(十三) ——交叉验证、查准率与召回率

机器学习(十三)——交叉验证、查准率与召回率 (原创内容,转载请注明来源,谢谢) 一、样本集使用方案 1、测试集 为了验证系统设计的是否准确,通常需要预留10...

4103

扫码关注云+社区

领取腾讯云代金券