前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >StatisticLearning

StatisticLearning

作者头像
DuncanZhou
发布2018-09-04 16:10:57
5210
发布2018-09-04 16:10:57
举报
文章被收录于专栏:Duncan's BlogDuncan's Blog

<统计学习方法> - 李航


重在推导过程,简单记录一些细节

第一章 统计学习方法概论

1.泛化误差/期望损失(风险函数):是理论模型f(X)关于联合分布P(X,Y)的平均意义下的损失.

2.训练误差(经验风险/经验损失):是模型f(X)关于训练数据集的平均损失

3.根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险,所以一般用经验风险估计期望风险.但现实中训练样本数目有限,所以对经验风险要进行一定的矫正.经验风险最小化和结构风险最小化(正则化)

4.过拟合解决方案:

  • 正则化
  • 交叉验证
    • 简单交叉验证
    • K-Fold交叉验证
    • 留一交叉验证

5.生成方法和判别方法比较

  • 生成方法:由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,即生成模型$P(Y|X)=\frac{P(X,Y)}{P(X)}$.
  • 判别方法:由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型.
  • 两者区别:
    • 生成方法可以还原出联合概率分布,而判别方法不能;生成方法的学习收敛速度更快.
    • 判别方法直接学习的式条件概率或决策函数,直接面对预测,往往学习的准确率更高.可以对数据进行各种程度上的抽象,定义特征并使用特征,简化学习问题.

6.回归问题按照输入变量的个数分为一元回归和多元回归;按照输入变量和输出变量之间关系的类型即模型的类型,分为线性回归和非线性回归.

7.回归学习最常用的损失函数是平方损失函数 - 最小二乘法求解.

第二章 感知机

1.模型:$f(x)=sign(w\cdot{x}+b)$,找一个可以划分正负样例的超平面,属于判别模型

2.学习策略:损失函数定义为误分类点到超平面的总距离

3.学习算法:随机梯度下降

第三章 k近邻法

kd tree的划分方法和搜索方法参考网上资料

第四章 朴素贝叶斯

1.基于属性独立的强假设

2.朴素贝叶斯 -> 贝叶斯估计(防止有属性概率为0存在)

第五章 决策树

1.决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程.可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布.

2.决策树学习过程包含三个步骤:特征选择,决策树的生成和决策树模型的修剪

3.决策树的损失函数通常是正则化的极大似然函数,决策树学习的策略是以损失函数为目标函数的最小化,决策树的学习算法通常采用启发式方法,因为从所有可能的决策树中选取最优决策树是NP完全问题.

4.特征选择

4.1 特征选择的准则通常是选择信息增益或信息增益率(基尼系数)

4.2 熵:$H(p)=-\sum_{i=1}^{n}p_ilogp_i$,熵越大,不确定性越大

4.3 条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性.$H(Y|X)=\sum_{i=1}^{n}p_iH(Y|X=x_i)$

4.4 信息增益:特征A对训练集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即$g(D,A)=H(D)-H(D|A)$

4.5 信息增益比:特征A对训练集D的信息增益比$g_R(D,A)$定义为其信息增益$g(D,A)$与训练集D的经验熵H(D)之比为:$g_R(D,A)=\frac{g(D,A)}{H(D)}$

5.ID3算法/C4.5算法参考<西瓜书>,西瓜书上讲得略微好一点

6.CART算法:最小二乘法生成回归树,基于基尼系数生成回归树

7.剪枝策略:预剪枝和后剪枝 (参考西瓜书上) 将数据集分为训练集和验证集,用验证集来进行剪枝操作.

第六章 Logistic回归和最大熵模型

1.X服从Logistic分布是指X具有以下分布函数和密度函数:

F(x)=P(X\leq x)=\frac{1}{1+e^{-(x-\mu)/\gamma }}f(x)=F'(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma (1+e^{-(x-\mu)/\gamma})^2}

式中,$\mu$为位置参数,$\gamma>0$为形状参数.

2.logistic回归策略:构造极大似然函数,使用梯度下降方法或拟牛顿法求解优化.

3.最大熵模型(待完善)

第七章 SVM

其他略,已经复习过

补充:SMO(序列最小最优化算法): 1.总体思路

  • 选取一对需要更新的变量$\alpha_i$,$\alpha_j$
  • 固定$\alpha_i$,$\alpha_j$以外的参数,求解对偶问题

2.具体细节

  • First,SMO算法先选取违背KKT条件程度最大的变量
  • Second,第二个变量理应选择一个使目标函数值减小最快的变量,但由于比较各变量所对应的目标函数值减幅的复杂度过高,因此SMO采用了一个启发式:使选取的两变量所对应样本之间的间隔最大.

第八章 提升方法

1.概念:对提升方法来说,有两个问题需要回答

  • 在每一轮如何改变训练数据的权值或概率分布 - AdaBoost提高那些前一轮弱分类器错误分类样本的权值,而降低那些被正确分类样本的权值
  • 如何将弱分类器组合成一个强分类器 - AdaBoost采取加权多数表决的方法,具体地,加大分类误差率较小的弱分类器的权值,使其表决中起较大的作用,减小分类误差率较大的弱分类器的权值,使其再表决中其较小的作用.

2.AdaBoost 学习样本权重$D_m$,学习分类器权重$\alpha_m$

  • $D_m={w_{m1},w_{m2},…,w_{mN}}$,样本权重和上一次的分类器分类结果有关
  • $\alpha_m=\frac{1}{2}log\frac{1-e_m}{e_m}$,$e_m$为分类误差错误率(算错误率时乘上样本权重)

3.提升树 前向分步法+拟合残差,在拟合残差时,如果损失函数是平方差函数或指数损失函数时,每一步优化很简单.如果是一般损失函数,则可以使用梯度提升算法.

4.BaggingStacking见<西瓜书>

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018-03-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • <统计学习方法> - 李航
    • 第一章 统计学习方法概论
      • 第二章 感知机
        • 第三章 k近邻法
          • 第四章 朴素贝叶斯
            • 第五章 决策树
              • 第六章 Logistic回归和最大熵模型
                • 第七章 SVM
                  • 第八章 提升方法
                  领券
                  问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档