监督学习:学习一个模型,使它能对给定的输入预测相应的输出。包括分类、标注、回归。
感知机、k近邻法、朴素贝叶斯法、决策树
是简单的分类方法,具有模型直观、方法简单、实现容易等特点
逻辑斯谛回归、最大熵模型、支持向量机、提升方法
是更复杂但更有效的分类方法,往往分类准确率更高
隐马尔可夫模型、条件随机场
是主要的标注方法。通常 条件随机场 的标注准确率更高
预测模型 可以写成 条件概率分布
或 决策函数
的形式。
朴素贝叶斯法、隐马尔可夫模型
是概率模型感知机、k近邻法、支持向量机、提升方法
是非概率模型决策树、逻辑斯谛回归、最大熵模型、条件随机场
既可以看作是概率模型,又可以看作是非概率模型直接学习 条件概率分布
或 决策函数
的方法为判别方法
感知机、k近邻法、决策树、逻辑斯谛回归、最大熵模型、支持向量机、提升方法、条件随机场
首先学习 联合概率分布
,从而求得 条件概率分布
的方法是生成方法
朴素贝叶斯法、隐马尔可夫模型
决策树是定义在一般特征空间上的,可以含有 连续变量 或 离散变量
感知机、支持向量机、k近邻法 的特征空间是欧氏空间(一般地,希尔伯特空间)
提升方法 的模型是 弱分类器 的线性组合,弱分类器 的 特征空间 就是提升方法模型的特征空间
感知机模型 是 线性
模型
逻辑斯谛回归、最大熵模型、条件随机场 是对数线性
模型
k近邻法、决策树、支持向量机(包含核函数)、提升方法 是非线性
模型
在二类分类的监督学习中,支持向量机、逻辑斯谛回归&最大熵模型、提升方法
各自使用 合页损失函数、逻辑斯谛损失函数、指数损失函数
,分别写为:
这3种损失函数都是0-1损失函数的上界,具有相似的形状
可以认为 支持向量机、逻辑斯谛回归&最大熵模型、提升方法 使用不同的代理损失函数(surrogateloas Punotion)表示分类的损失,定义 经验风险 或 结构风险函数,实现二类分类学习任务。
学习的策略 是优化结构风险函数:
第1项为 经验风险(经验损失),第2项为正则化项,
为损失函数,
为模型的复杂度,
为系数。
范数表示模型的复杂度
范数正则化项
概率模型 的学习 可以形式化为 极大似然估计 或 贝叶斯估计的 极大后验概率估计
学习的策略是 极小化对数似然损失 或 极小化正则化的对数似然损失
对数似然损失可以写成:
极大后验概率估计时,正则化项是先验概率的负对数
决策树 学习的策略是正则化的极大似然估计,损失函数是对数似然损失,正则化项是决策树的复杂度
逻辑斯谛回归&最大熵模型、条件随机场 的学习策略既可以看成是 极大似然估计(或正则化的极大似然估计),又可以看成是 极小化逻辑斯谛损失(或正则化的逻辑斯谛损失)
朴素贝叶斯模型、隐马尔可夫模型 的非监督学习也是 极大似然估计 或 极大后验概率估计,但这时模型含有隐变量
统计学习的问题有了具体的形式以后,就变成了最优化问题