机器学习必须了解的基础知识

平凡的世界

在这个世界上,不是所有合理和美好的都能按照自己的愿望存在或实现。

2018 · 9 · 北京

高等数学学习

ML挖掘

Taylor公式 – Maclaurin公式

Taylor公式的应用

函数值计算

在实践中,往往需要做一定程度的变换。

计算e^x

给定正实数x,计算ex=?

一种可行的思路:

求整数k和小数r,使得nx = kln2 + r, |r|≤0.5ln2

从而:

解释Gini系数

这个可以从Gini系数、熵、分类误差率三者的关系入手

将f(x)=-lnx在x=1处一阶展开,忽略高阶无穷小,n得到f(x)≈1-x

大家有兴趣的可以看看我以前写的关于决策树的使用以及案例分析,源码微信公众号后台恢复失效,可添加本人微信号,私发给你.

平方根算法

在任意点x0处Taylor展开

我还是用另一个简单的语言简单的敲敲代码

梯度下降算法

初始化θ(随机初始化)

沿着负梯度方向迭代,

更新后的θ使J(θ)更小

相信这块大家应该表熟悉吧

Taylor展式

o若f(x)二阶导连续,将f(x)在xk处Taylor展开

牛顿法

上述迭代公式,即牛顿法

该方法可以直接推广到多维:用方向导数代替一阶导,用Hessian矩阵代替二阶导

牛顿法的特点

牛顿法具有二阶收敛性,在某些目标函数(如线性回归、Logistic回归等)的问题中,它的收敛速度比梯度下降要快。

经典牛顿法虽然具有二次收敛性,但是要求初始点需要尽量靠近极小点,否则有可能不收敛。

如果Hessian矩阵奇异,牛顿方向可能根本不存在。

若Hessian矩阵不是正定,则牛顿方向有可能是反方向。

计算过程中需要计算目标函数的二阶偏导数的逆,时间复杂度较大

二阶导非正定的情况(一元则为负数)

拟牛顿的思路

求Hessian矩阵的逆影响算法效率,同时,搜索方向并非严格需要负梯度方向或牛顿方向;因此,可以用近似矩阵代替Hessian矩阵,只要满足该矩阵正定、容易求逆,或者可以通过若干步递推公式计算得到。

DFP:Davidon– Fletcher – Powell

图片19

BFGS:Broyden– Fletcher – Goldfarb - Shanno

矩阵迭代公式

总结

Taylor展式是数学分析中的重要工具,在近似计算、迭代公式推导等众多方面有重要作用。

梯度下降算法还涉及到下降方向的修正、自适应学习率等问题。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180910G22NIJ00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券