StatisticLearning

DuncanZhou

发布于 2018-09-04 16:10:57

5390

发布于 2018-09-04 16:10:57

文章被收录于专栏：Duncan's Blog

<统计学习方法> - 李航

重在推导过程,简单记录一些细节

第一章统计学习方法概论

1.泛化误差/期望损失(风险函数):是理论模型f(X)关于联合分布P(X,Y)的平均意义下的损失.

2.训练误差(经验风险/经验损失):是模型f(X)关于训练数据集的平均损失

3.根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险,所以一般用经验风险估计期望风险.但现实中训练样本数目有限,所以对经验风险要进行一定的矫正.经验风险最小化和结构风险最小化(正则化)

4.过拟合解决方案:

正则化
交叉验证
- 简单交叉验证
- K-Fold交叉验证
- 留一交叉验证

5.生成方法和判别方法比较

生成方法:由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,即生成模型$P(Y|X)=\frac{P(X,Y)}{P(X)}$.
判别方法:由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型.
两者区别:
- 生成方法可以还原出联合概率分布,而判别方法不能;生成方法的学习收敛速度更快.
- 判别方法直接学习的式条件概率或决策函数,直接面对预测,往往学习的准确率更高.可以对数据进行各种程度上的抽象,定义特征并使用特征,简化学习问题.

6.回归问题按照输入变量的个数分为一元回归和多元回归;按照输入变量和输出变量之间关系的类型即模型的类型,分为线性回归和非线性回归.

7.回归学习最常用的损失函数是平方损失函数 - 最小二乘法求解.

第二章感知机

1.模型:$f(x)=sign(w\cdot{x}+b)$,找一个可以划分正负样例的超平面,属于判别模型

2.学习策略:损失函数定义为误分类点到超平面的总距离

3.学习算法:随机梯度下降

第三章 k近邻法

kd tree的划分方法和搜索方法参考网上资料

第四章朴素贝叶斯

1.基于属性独立的强假设

2.朴素贝叶斯 -> 贝叶斯估计(防止有属性概率为0存在)

略

第五章决策树

1.决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程.可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布.

2.决策树学习过程包含三个步骤:特征选择,决策树的生成和决策树模型的修剪

3.决策树的损失函数通常是正则化的极大似然函数,决策树学习的策略是以损失函数为目标函数的最小化,决策树的学习算法通常采用启发式方法,因为从所有可能的决策树中选取最优决策树是NP完全问题.

4.特征选择

4.1 特征选择的准则通常是选择信息增益或信息增益率(基尼系数)

4.2 熵:$H(p)=-\sum_{i=1}^{n}p_ilogp_i$,熵越大,不确定性越大

4.3 条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性.$H(Y|X)=\sum_{i=1}^{n}p_iH(Y|X=x_i)$

4.4 信息增益:特征A对训练集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即$g(D,A)=H(D)-H(D|A)$

4.5 信息增益比:特征A对训练集D的信息增益比$g_R(D,A)$定义为其信息增益$g(D,A)$与训练集D的经验熵H(D)之比为:$g_R(D,A)=\frac{g(D,A)}{H(D)}$

5.ID3算法/C4.5算法参考<西瓜书>,西瓜书上讲得略微好一点

6.CART算法:最小二乘法生成回归树,基于基尼系数生成回归树

7.剪枝策略:预剪枝和后剪枝 (参考西瓜书上) 将数据集分为训练集和验证集,用验证集来进行剪枝操作.

第六章 Logistic回归和最大熵模型

1.X服从Logistic分布是指X具有以下分布函数和密度函数:

F(x)=P(X\leq x)=\frac{1}{1+e^{-(x-\mu)/\gamma }}f(x)=F'(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma (1+e^{-(x-\mu)/\gamma})^2}

式中,$\mu$为位置参数,$\gamma>0$为形状参数.

2.logistic回归策略:构造极大似然函数,使用梯度下降方法或拟牛顿法求解优化.

3.最大熵模型(待完善)

第七章 SVM

其他略,已经复习过

补充:SMO(序列最小最优化算法): 1.总体思路

选取一对需要更新的变量$\alpha_i$,$\alpha_j$
固定$\alpha_i$,$\alpha_j$以外的参数,求解对偶问题

2.具体细节

First,SMO算法先选取违背KKT条件程度最大的变量
Second,第二个变量理应选择一个使目标函数值减小最快的变量,但由于比较各变量所对应的目标函数值减幅的复杂度过高,因此SMO采用了一个启发式:使选取的两变量所对应样本之间的间隔最大.

第八章提升方法

1.概念:对提升方法来说,有两个问题需要回答

在每一轮如何改变训练数据的权值或概率分布 - AdaBoost提高那些前一轮弱分类器错误分类样本的权值,而降低那些被正确分类样本的权值
如何将弱分类器组合成一个强分类器 - AdaBoost采取加权多数表决的方法,具体地,加大分类误差率较小的弱分类器的权值,使其表决中起较大的作用,减小分类误差率较大的弱分类器的权值,使其再表决中其较小的作用.

2.AdaBoost 学习样本权重$D_m$,学习分类器权重$\alpha_m$

$D_m={w_{m1},w_{m2},…,w_{mN}}$,样本权重和上一次的分类器分类结果有关
$\alpha_m=\frac{1}{2}log\frac{1-e_m}{e_m}$,$e_m$为分类误差错误率(算错误率时乘上样本权重)

3.提升树前向分步法+拟合残差,在拟合残差时,如果损失函数是平方差函数或指数损失函数时,每一步优化很简单.如果是一般损失函数,则可以使用梯度提升算法.

4.Bagging和Stacking见<西瓜书>

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2018-03-17，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度