本博客为七月在线邹博老师机器学习数学课程学习笔记
为七月在线打 call!!
课程传送门[1]
Taylor 展式与拟牛顿
索引
taylor 展式
牛顿法
Taylor 公式
- 如果函数在 x0 点可以计算 n 阶导数,则有 Taylor 展开
- 如果取 x0=0,则有 Taylor 的麦克劳林公式.
Taylor 公式的应用 1:函数值计算
计算
Taylor 公式的应用 2:解释 Gini 系数
- 在随机数和决策森林中会提到的非常重要的概念-- Gini 系数
- Gini 系数定义 某个类别发生的概率乘以这个类别不发生的概率,把所有类别此项相加.
- 已知交叉熵定义,我们用泰勒公式将 f(x)=ln(x)在 x=1 处一阶展开为 1-x,将其带入交叉熵公式中,得到交叉熵公式的近似值公式.
Taylor 公式的应用 3:牛顿迭代法计算平方根
梯度下降算法
牛顿法
- 如果我们要求 f(x)的最值(最小值或最大值),即要使
,这时候的到式子
- ps:这里我们假设 f(x)是一个一元函数,如果是一个多元函数,推导过程完全相同,只是此时
关于 Hessian 矩阵[2] > 关于牛顿法[3]
,我们在此处求其切线,并且沿着切线方向在横坐标轴上移动
的距离,这时候我们使用的算法就是梯度下降法.
点的函数值,导数值,二阶导数值得到的抛物线,我们求这条抛物线的梯度为 0(即最小值)的点
,即牛顿法是利用二次函数做的近似而梯度下降法是利用一次函数做的近似
牛顿法特点
Hessian 矩阵非正定
- 如图,左边是标准情况,右边是 f(x,y,z...)多元目标函数二阶导数非正定的情况,如果是 f(x)一元函数,则是二阶导数为负数的情况.
- 假设红线是目标函数,最小值点在 A 点,假设我们选取的
时,此时选取的点在 B 点,在 B 点使用牛顿法得到虚线,由于得到的二次曲线是一个凹函数,二阶导数为负数得到的极值点是虚线的最大值点!
拟牛顿法
拟牛顿的思路
- 求 Hessian 矩阵的逆影响算法效率
- 搜索方向并非严格需要负梯度方向或者牛顿方向
- 可以用近似矩阵代替 Hessian 矩阵,只要满足矩阵正定,容易求导,或者可以通过若干步递推公式计算得到.
- DFP: Davidon -Fletcher -Powell(三个数学家名字命名)
- BFGS: Broyden -Fletcher -Goldfarb -Shanno
DFP
BFGS
参考资料
[1]
课程传送门: http://www.julyedu.com/video/play/38
[2]
关于Hessian矩阵: https://baike.baidu.com/item/%E9%BB%91%E5%A1%9E%E7%9F%A9%E9%98%B5/2248782?fr=aladdin
[3]
关于牛顿法: http://blog.csdn.net/google19890102/article/details/41087931