StatisticLearning

<统计学习方法> - 李航


重在推导过程,简单记录一些细节

第一章 统计学习方法概论

1.泛化误差/期望损失(风险函数):是理论模型f(X)关于联合分布P(X,Y)的平均意义下的损失.

2.训练误差(经验风险/经验损失):是模型f(X)关于训练数据集的平均损失

3.根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险,所以一般用经验风险估计期望风险.但现实中训练样本数目有限,所以对经验风险要进行一定的矫正.经验风险最小化和结构风险最小化(正则化)

4.过拟合解决方案:

  • 正则化
  • 交叉验证
    • 简单交叉验证
    • K-Fold交叉验证
    • 留一交叉验证

5.生成方法和判别方法比较

  • 生成方法:由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,即生成模型$P(Y|X)=\frac{P(X,Y)}{P(X)}$.
  • 判别方法:由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型.
  • 两者区别:
    • 生成方法可以还原出联合概率分布,而判别方法不能;生成方法的学习收敛速度更快.
    • 判别方法直接学习的式条件概率或决策函数,直接面对预测,往往学习的准确率更高.可以对数据进行各种程度上的抽象,定义特征并使用特征,简化学习问题.

6.回归问题按照输入变量的个数分为一元回归和多元回归;按照输入变量和输出变量之间关系的类型即模型的类型,分为线性回归和非线性回归.

7.回归学习最常用的损失函数是平方损失函数 - 最小二乘法求解.

第二章 感知机

1.模型:$f(x)=sign(w\cdot{x}+b)$,找一个可以划分正负样例的超平面,属于判别模型

2.学习策略:损失函数定义为误分类点到超平面的总距离

3.学习算法:随机梯度下降

第三章 k近邻法

kd tree的划分方法和搜索方法参考网上资料

第四章 朴素贝叶斯

1.基于属性独立的强假设

2.朴素贝叶斯 -> 贝叶斯估计(防止有属性概率为0存在)

第五章 决策树

1.决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程.可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布.

2.决策树学习过程包含三个步骤:特征选择,决策树的生成和决策树模型的修剪

3.决策树的损失函数通常是正则化的极大似然函数,决策树学习的策略是以损失函数为目标函数的最小化,决策树的学习算法通常采用启发式方法,因为从所有可能的决策树中选取最优决策树是NP完全问题.

4.特征选择

4.1 特征选择的准则通常是选择信息增益或信息增益率(基尼系数)

4.2 熵:$H(p)=-\sum_{i=1}^{n}p_ilogp_i$,熵越大,不确定性越大

4.3 条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性.$H(Y|X)=\sum_{i=1}^{n}p_iH(Y|X=x_i)$

4.4 信息增益:特征A对训练集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即$g(D,A)=H(D)-H(D|A)$

4.5 信息增益比:特征A对训练集D的信息增益比$g_R(D,A)$定义为其信息增益$g(D,A)$与训练集D的经验熵H(D)之比为:$g_R(D,A)=\frac{g(D,A)}{H(D)}$

5.ID3算法/C4.5算法参考<西瓜书>,西瓜书上讲得略微好一点

6.CART算法:最小二乘法生成回归树,基于基尼系数生成回归树

7.剪枝策略:预剪枝和后剪枝 (参考西瓜书上) 将数据集分为训练集和验证集,用验证集来进行剪枝操作.

第六章 Logistic回归和最大熵模型

1.X服从Logistic分布是指X具有以下分布函数和密度函数:

F(x)=P(X\leq x)=\frac{1}{1+e^{-(x-\mu)/\gamma }}f(x)=F'(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma (1+e^{-(x-\mu)/\gamma})^2}

式中,$\mu$为位置参数,$\gamma>0$为形状参数.

2.logistic回归策略:构造极大似然函数,使用梯度下降方法或拟牛顿法求解优化.

3.最大熵模型(待完善)

第七章 SVM

其他略,已经复习过

补充:SMO(序列最小最优化算法): 1.总体思路

  • 选取一对需要更新的变量$\alpha_i$,$\alpha_j$
  • 固定$\alpha_i$,$\alpha_j$以外的参数,求解对偶问题

2.具体细节

  • First,SMO算法先选取违背KKT条件程度最大的变量
  • Second,第二个变量理应选择一个使目标函数值减小最快的变量,但由于比较各变量所对应的目标函数值减幅的复杂度过高,因此SMO采用了一个启发式:使选取的两变量所对应样本之间的间隔最大.

第八章 提升方法

1.概念:对提升方法来说,有两个问题需要回答

  • 在每一轮如何改变训练数据的权值或概率分布 - AdaBoost提高那些前一轮弱分类器错误分类样本的权值,而降低那些被正确分类样本的权值
  • 如何将弱分类器组合成一个强分类器 - AdaBoost采取加权多数表决的方法,具体地,加大分类误差率较小的弱分类器的权值,使其表决中起较大的作用,减小分类误差率较大的弱分类器的权值,使其再表决中其较小的作用.

2.AdaBoost 学习样本权重$D_m$,学习分类器权重$\alpha_m$

  • $D_m={w_{m1},w_{m2},…,w_{mN}}$,样本权重和上一次的分类器分类结果有关
  • $\alpha_m=\frac{1}{2}log\frac{1-e_m}{e_m}$,$e_m$为分类误差错误率(算错误率时乘上样本权重)

3.提升树 前向分步法+拟合残差,在拟合残差时,如果损失函数是平方差函数或指数损失函数时,每一步优化很简单.如果是一般损失函数,则可以使用梯度提升算法.

4.BaggingStacking见<西瓜书>

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏鸿的学习笔记

分类问题中的维度诅咒(下)

换句话说,如果可用训练数据的数量是固定的,我们继续添加维度的话,则会发生过拟合。另一方面,如果我们不断增加维度,训练数据的数量需要快速增长以保持相同的覆盖,并避...

1061
来自专栏派树AI

机器学习笔记——Logistic回归算法

logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。

1210
来自专栏计算机视觉战队

线性分类原来是这么一回事,skr~

SVM是最常用的两个分类器之一,而另一个就是Softmax分类器,它的损失函数与SVM的损失函数不同。

1173
来自专栏魏晓蕾的专栏

【机器学习】CS229课程笔记notes1翻译-Part I线性回归

      让我们开始谈论一些监督学习的例子。假定我们有一个数据集,给出俄勒冈州波特兰地区47套房屋的居住面积和价格:

2049
来自专栏PaddlePaddle

激活函数

深度学习基础理论-CNN篇 激活函数 ? 激活函数(activation function)层又称非线性映射层,顾名思义,激活函数的引入为的是增加整个网络的...

2929
来自专栏外文文献翻译

从潜在向量生成大图像 - 第二部分

更多分辨率为1080x1080的MNIST数字

23710
来自专栏机器学习算法与Python学习

最小二乘支持向量回归机(LS-SVR)

前面连续的七篇文章已经详细的介绍了支持向量机在二分类中的公式推导,以及如何求解对偶问题和二次规划这个问题,分类的应用有很多,如电子邮箱将邮件进行垃圾邮件与正常邮...

6589
来自专栏新智元

Reddit热文:MIT\北大\CMU合作, 找到深度神经网络全局最优解

在目标函数非凸的情况下,梯度下降在训练深度神经网络中也能够找到全局最小值。本文证明,对于具有残差连接的超参数化的深度神经网络(ResNet),采用梯度下降可以在...

843
来自专栏大数据挖掘DT机器学习

隐马尔可夫模型攻略

隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然...

36511
来自专栏SIGAI学习与实践平台

理解AdaBoost算法

与随机森林一样,Boosting算法也是一种集成学习算法,随机森林和集成学习在SIGAI之前的公众号文章“随机森林概述”中已经介绍。Boosting的分类器由多...

3300

扫码关注云+社区