极大似然估计:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值
最小二乘法:二乘的英文是least square,找一个(组)估计值,使得实际值与估计值之差的平方加总之后的值....定义在条件概率分布P(Y|X)上的条件熵为
?
,则条件熵最大的模型称为最大熵模型.
最大熵模型的学习就是求解最大熵模型的过程.等价于约束最优化问题
?
,将求最大值问题改为等价的求最小值问题
?...,其中||w||是w的l2范数.这就是几何间隔的定义.定义超平面关于训练数据集T的几何间隔为超平面关于T中所有样本点的几何间隔之最小值
?
.可知
?
,当||w||=1时几何间隔和函数间隔相等....支持向量:在线性不可分的情况下,将对应与ai*>0的样本点(xi,yi)的实例点xi称为支持向量.软间隔的支持向量或者在间隔边界上,或者在间隔边界与分类超平面之间,或者再分离超平面误分一侧.
?...计算估计值与实际值之间的误差,并将该误差从输出层向输入层反向传播.
在反向传播的过程中,根据误差使用梯度下降与链式法则调整各种参数的值.
不断迭代直至收敛.