重在推导过程,简单记录一些细节
1.泛化误差/期望损失(风险函数):是理论模型f(X)关于联合分布P(X,Y)的平均意义下的损失.
2.训练误差(经验风险/经验损失):是模型f(X)关于训练数据集的平均损失
3.根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险,所以一般用经验风险估计期望风险.但现实中训练样本数目有限,所以对经验风险要进行一定的矫正.经验风险最小化和结构风险最小化(正则化)
4.过拟合解决方案:
5.生成方法和判别方法比较
6.回归问题按照输入变量的个数分为一元回归和多元回归;按照输入变量和输出变量之间关系的类型即模型的类型,分为线性回归和非线性回归.
7.回归学习最常用的损失函数是平方损失函数 - 最小二乘法求解.
1.模型:$f(x)=sign(w\cdot{x}+b)$,找一个可以划分正负样例的超平面,属于判别模型
2.学习策略:损失函数定义为误分类点到超平面的总距离
3.学习算法:随机梯度下降
kd tree的划分方法和搜索方法参考网上资料
1.基于属性独立的强假设
2.朴素贝叶斯 -> 贝叶斯估计(防止有属性概率为0存在)
略
1.决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程.可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布.
2.决策树学习过程包含三个步骤:特征选择,决策树的生成和决策树模型的修剪
3.决策树的损失函数通常是正则化的极大似然函数,决策树学习的策略是以损失函数为目标函数的最小化,决策树的学习算法通常采用启发式方法,因为从所有可能的决策树中选取最优决策树是NP完全问题.
4.特征选择
4.1 特征选择的准则通常是选择信息增益或信息增益率(基尼系数)
4.2 熵:$H(p)=-\sum_{i=1}^{n}p_ilogp_i$,熵越大,不确定性越大
4.3 条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性.$H(Y|X)=\sum_{i=1}^{n}p_iH(Y|X=x_i)$
4.4 信息增益:特征A对训练集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即$g(D,A)=H(D)-H(D|A)$
4.5 信息增益比:特征A对训练集D的信息增益比$g_R(D,A)$定义为其信息增益$g(D,A)$与训练集D的经验熵H(D)之比为:$g_R(D,A)=\frac{g(D,A)}{H(D)}$
5.ID3算法/C4.5算法参考<西瓜书>,西瓜书上讲得略微好一点
6.CART算法:最小二乘法生成回归树,基于基尼系数生成回归树
7.剪枝策略:预剪枝和后剪枝 (参考西瓜书上) 将数据集分为训练集和验证集,用验证集来进行剪枝操作.
1.X服从Logistic分布是指X具有以下分布函数和密度函数:
F(x)=P(X\leq x)=\frac{1}{1+e^{-(x-\mu)/\gamma }}f(x)=F'(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma (1+e^{-(x-\mu)/\gamma})^2}
式中,$\mu$为位置参数,$\gamma>0$为形状参数.
2.logistic回归策略:构造极大似然函数,使用梯度下降方法或拟牛顿法求解优化.
3.最大熵模型(待完善)
其他略,已经复习过
补充:SMO(序列最小最优化算法): 1.总体思路
2.具体细节
1.概念:对提升方法来说,有两个问题需要回答
2.AdaBoost 学习样本权重$D_m$,学习分类器权重$\alpha_m$
3.提升树 前向分步法+拟合残差,在拟合残差时,如果损失函数是平方差函数或指数损失函数时,每一步优化很简单.如果是一般损失函数,则可以使用梯度提升算法.
4.Bagging和Stacking见<西瓜书>