监督学习方法总结

1. 适用问题

监督学习:学习一个模型,使它能对给定的输入预测相应的输出。包括分类、标注、回归。

  • 分类问题:从实例的 特征向量 到 类标记 的预测问题
  • 标注问题:从 观测序列 到 标记序列(或状态序列) 的预测问题。

感知机、k近邻法、朴素贝叶斯法、决策树简单的分类方法,具有模型直观、方法简单、实现容易等特点

逻辑斯谛回归、最大熵模型、支持向量机、提升方法更复杂但更有效的分类方法,往往分类准确率更高

隐马尔可夫模型、条件随机场是主要的标注方法。通常 条件随机场 的标注准确率更高

2. 模型

2.1 概率模型、非概率模型

预测模型 可以写成 条件概率分布

P(Y|X)

或 决策函数

Y=f(X)

的形式。

  • 朴素贝叶斯法、隐马尔可夫模型 是概率模型
  • 感知机、k近邻法、支持向量机、提升方法 是非概率模型
  • 决策树、逻辑斯谛回归、最大熵模型、条件随机场既可以看作是概率模型,又可以看作是非概率模型

2.2 判别方法、生成方法

直接学习 条件概率分布

P(Y|X)

或 决策函数

Y=f(X)

的方法为判别方法

  • 对应的模型是判别模型:感知机、k近邻法、决策树、逻辑斯谛回归、最大熵模型、支持向量机、提升方法、条件随机场

首先学习 联合概率分布

P(X,Y)

,从而求得 条件概率分布

P(Y|X)

的方法是生成方法

  • 对应的模型是生成模型:朴素贝叶斯法、隐马尔可夫模型

2.3 特征空间

决策树是定义在一般特征空间上的,可以含有 连续变量 或 离散变量

感知机、支持向量机、k近邻法 的特征空间是欧氏空间(一般地,希尔伯特空间)

提升方法 的模型是 弱分类器 的线性组合,弱分类器 的 特征空间 就是提升方法模型的特征空间


2.4 线性、非线性模型

感知机模型 是 线性模型 逻辑斯谛回归、最大熵模型、条件随机场对数线性模型 k近邻法、决策树、支持向量机(包含核函数)、提升方法非线性模型

3. 学习策略

在二类分类的监督学习中,支持向量机、逻辑斯谛回归&最大熵模型、提升方法 各自使用 合页损失函数、逻辑斯谛损失函数、指数损失函数,分别写为:

[1-y f(x)]_{+}
\log [1+\exp (-y f(x))]
\exp (-y f(x))

这3种损失函数都是0-1损失函数的上界,具有相似的形状

可以认为 支持向量机、逻辑斯谛回归&最大熵模型、提升方法 使用不同的代理损失函数(surrogateloas Punotion)表示分类的损失,定义 经验风险 或 结构风险函数,实现二类分类学习任务。

学习的策略 是优化结构风险函数:

\min _{f \in H} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)

第1项为 经验风险(经验损失),第2项为正则化项

L(y,f(x))

为损失函数,

J(f)

为模型的复杂度,

\lambda \geq 0

为系数。

  • 支持向量机 用
L_2

范数表示模型的复杂度

  • 原始的 逻辑斯谛回归 与 最大熵模型 没有正则化项,可以给它们加上
L_2

范数正则化项

  • 提升方法 没有显式的正则化项,通过早停止(early stopping)的方法达到正则化的效果

概率模型 的学习 可以形式化为 极大似然估计贝叶斯估计的 极大后验概率估计

学习的策略是 极小化对数似然损失 或 极小化正则化的对数似然损失

对数似然损失可以写成:

-\log P(y|x)

极大后验概率估计时,正则化项是先验概率的负对数


决策树 学习的策略是正则化的极大似然估计,损失函数是对数似然损失,正则化项是决策树的复杂度

逻辑斯谛回归&最大熵模型、条件随机场 的学习策略既可以看成是 极大似然估计(或正则化的极大似然估计),又可以看成是 极小化逻辑斯谛损失(或正则化的逻辑斯谛损失)

朴素贝叶斯模型、隐马尔可夫模型 的非监督学习也是 极大似然估计 或 极大后验概率估计,但这时模型含有隐变量

4. 学习算法

统计学习的问题有了具体的形式以后,就变成了最优化问题

  • 朴素贝叶斯法、隐马尔可夫模型 的监督学习,最优解即极大似然估计值,可以由概率计算公式直接计算。
  • 感知机、逻辑斯谛回归 & 最大熵模型、条件随机场 的学习利用梯度下降法拟牛顿法等一般的无约束最优化问题的解法
  • 支持向量机 学习,可以解凸二次规划的对偶问题。有 序列最小最优化 算法等方法
  • 决策树 学习是基于启发式算法的典型例子。可以认为特征选择、生成、剪枝是启发式地进行正则化的极大似然估计。
  • 提升方法 利用学习的模型是加法模型、损失函数是指数损失函数的特点,启发式地从前向后逐步学习模型,以达到逼近优化目标函数的目的
  • EM算法 是一种迭代的求解含隐变量概率模型参数的方法,它的收敛性可以保证,但不能保证收敛到全局最优
  • 支持向量机、逻辑斯谛回归 & 最大熵模型、条件随机场 学习是凸优化问题全局最优解保证存在。而其他学习问题则不是凸优化问题

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • LeetCode 1201. 丑数 III(最小公倍数+二分查找)

    Michael阿明
  • LeetCode 1002. 查找常用字符(哈希)

    给定仅有小写字母组成的字符串数组 A,返回列表中的每个字符串中都显示的全部字符(包括重复字符)组成的列表。例如,如果一个字符在每个字符串中出现 3 次,但不是 ...

    Michael阿明
  • LeetCode 653. 两数之和 IV - 输入 BST(二叉搜索树迭代器&双指针)

    给定一个二叉搜索树和一个目标结果,如果 BST 中存在两个元素且它们的和等于给定的目标结果,则返回 true。

    Michael阿明
  • ES6特性之:类

    面向对象编程是一个很流行也很让人容易理解的方法。面向对象编程中的一个核心概念就是类,我们可以把事物都抽象成一个个的类来描述他们的信息和行为。

    一斤代码
  • 现在,你可以撸机器猫了

    ? 谁不喜欢小喵? 如今,吸猫都成了一种潮水的方向。但朋友,除了可爱小喵还可能带来一些困扰:例如掉毛季节来临,手术(以及不做手术),铲屎(以及喂饭),一切行动...

    量子位
  • 高斯混合模型与EM算法的数学原理及应用实例

    http://www.tensorinfinity.com/paper_171.html

    SIGAI学习与实践平台
  • Facebook开源问答系统DrQA:基于单一信源回答开放域提问

    问耕 编译整理 量子位 出品 | 公众号 QbitAI 今天一大早,Yann LeCun就转发了一条消息:Facebook开源了DrQA的代码。 DrQA是一个...

    量子位
  • Ad-hoc类型同步识别

    尽管之前的我们提出的动态数据竞争验证和检测方法能够比较精确地找到数据竞争,但是该方法还是会存在一部分误检,误检主要就是由于ad-hoc类型的同步引起的,下图展示...

    chain
  • 谷歌推出了用于AI图像分类的机器学习模型

    人们通常认为,随着AI系统复杂性的增加,它的解释性总是越来越差。研究人员已经开始尝试用Facebook的Captum之类的库解决这一问题,该库解释了神经网络是如...

    AiTechYun
  • jquery事件绑定

    .bind()   为一个元素绑定一个元素处理程序。   .bind(eventType[,eventData],handler(eventOb...

    用户1197315

扫码关注云+社区

领取腾讯云代金券