机器学习中的微积分和概率统计

一、微积分与概率论

1、 微分学:

中国教科书中通常首先学习导数,例如中学时期的切线方程,函数单调性,零值点和极值点个数等等,而直到大学时期才引入微分的概念,导致大多数人通常并不了解微分和导数之间的关系。

函数在点a处可微,指它的值在所研究点的邻域内其变化近似是线性的,并且这种近似的误差是(x-a)的高阶无穷小。而导数描述的是,微分定义中线性变化的速度,即系数。即,f(x)-f(a)=L*(x-a)+o(x-a),等式右边是函数f(x)在a点处的微分,而系数L就是其导数f'(x)。

当函数一阶导数的线性逼近不能满足运算要求时,通常会对无穷小量o(x-a)继续逼近,因为没有更好的办法,所以数学家选择继续使用高阶导数线性逼近。于是这也就诞生了一元微分学中的巅峰成就:泰勒公式。而数学史上最美的欧拉公式,也可以由exp(x),sinx和cosx的泰勒展开推导出来。微分方程同样也可以从泰勒展开的角度求解其解析函数。

同理,对于多元函数的全微分而言,函数在多个方向的全微分则使用各个方向偏导数为系数,对其进行线性逼近。

衍生到机器学习的应用上,微分学主要用于求解损失函数的极小值问题。即,对于一个无穷可微的函数J(x),使用梯度下降法和牛顿法寻找它的极小值。两种方法最大的区别在于,梯度下降法直接沿着函数梯度下降最快,即方向导数最大,函数增长最快的方向迭代优化寻找极值点,而牛顿法则是,间接的通过不断求解某一特定点邻域附近的极值点,来迭代优化寻找极值。梯度下降可以直接求解到极小值点,而牛顿法则只能找到极值点,还需要额外判断函数邻域是否为凸函数来判别。

从理论上说,梯度下降法中的“梯度方向”首先定义的便是函数增长的方向,然后通过对多变量函数的一阶线性逼近来选择其方向导数最大的方向作为迭代优化的梯度方向,虽然我们并不能精确的知道极值点在什么地方,但能得到极值点所处的方向。

举例说明,在一元函数中使用梯度下降法寻找极小值,要使 f(x+

x) - f(x) ≈ f'(x)·

x <= 0 恒成立, 手到擒来

x = -f'(x)。因此,只需使x始终向着-f'(x)的方向移动,便可迭代找到极小值,多元函数同理。

而牛顿法通常用来求解函数的零值点,从计算机的角度来看,要使f(x)≈f(a) +f'(a)·(x-a)≈0, 推出 x=a-

,通过不断的迭代,当x收敛时就能求解出函数值为0的近似解。

显而易见,梯度下降法和牛顿法求零值点的本质相同。那么,一个求解函数零值的牛顿法,如何应用到求解极值问题呢?我们知道,函数的极值点一定是存在于其驻点,而驻点又是导数为0的点,于是函数的极值点必然位于其导数为0的点,所以牛顿法需要二阶逼近。

因此,从求解极值的角度看,牛顿法和梯度下降法本质上都是对目标函数的局部逼近,由于梯度下降是一阶逼近,它的计算简单但收敛速度慢,而牛顿法则刚好相反,具体使用哪个方法则还需要具体问题具体分析。

那求解到局部极值点并不能说明损失函数J(x)最优啊?那最优化问题如何保证呢?这时就需要研究损失函数J(x)的凹凸性了,由Jesen不等式得,如果一个函数为凸函数,则函数的局部极值点就是其全局最值点。Jesen不等式:若f(a·x1+b*x2) <= a·f(x1)+b·f(x2),a+b=1,f(x)是凸函数。

2、 积分学与概率统计:

因为样本空间中所有事件的概率和为1,将每个自变量看作一个特定事件,Jesen不等式又可以表示为所有事件发生的期望所对应的函数值小于等于各个事件所对应函数值的期望,这时就将概率论和积分学联系到了一起。

通常所说的积分,都是黎曼积分。黎曼积分就是采用无限逼近的方法,求解曲线所围的面积。即,高等数学的核心都是逼近。

积分学中最有名的牛顿-莱布尼茨公式=

因为导数描绘的是函数的变化,从几何意义上来说,可微函数f(x)在[a,b]区间内全部变化的总和就是它在两个端点处的差值。可见,在一定程度上,微分与积分是互逆运算。

同理,多重积分,也可看作积分函数在各个坐标轴上分别积分汇总后的结果。

从概率论的角度看,某一事件的概率是构成该事件的随机变量所有可能概率的求和,即随机变量概率函数的求和。因此,对于连续型随机变量来说,由于单个点的概率为0无意义,因此某一事件发生的概率即为该事件概率密度函数在其变化区间内的积分。需要注意的是,概率函数或概率密度函数的定义域即为其对应随机变量的值域。

具体到机器学习中,最重要的概率应用是贝叶斯公式。

而提到贝叶斯公式,就必须介绍一下,频率学派和贝叶斯学派,之间的理念冲突。简单点说,频率学派相信,事件本身是不确定的,所研究的随机变量即事件本身,整个样本空间即为全部事件,因此他们的研究只能通过在客观世界中不断做重复随机试验来进行。而贝叶斯学派,相信人具有先验知识,事件本身应该是确定的,只是因为人们的认识不足,而无法判断事件结果最后会走向何方,它研究的随机变量通常是估计参数,整个样本空间就是所有可能的参数值。就掷骰子来举例,如果事先根据常识假设骰子中每个数字出现的概率都是1/6,每投掷完一次骰子后便重新计算一次概率,通过不断迭代获取最新的概率得到最终估计就是贝叶斯的方法。但如果事先不对骰子做任何假设,以图直接通过大量的随机独立重复实验获取样本,通过最大似然法直接求解骰子在何种概率下能发生全体样本的可能性最高,从而得到骰子的估计概率,这便是频率学派的方法。

就贝叶斯公式本身来分析,

。其中,P(

|X)是参数

在新样本X发生后的后验概率,P(X|

)是已知

的前提下发生X的概率=似然函数, P(

)是通过早期样本和数据得到的先验概率,

是在

的全样本空间内发生样本X的概率和。有趣的是,P(A|B)是基于P(B|A)计算的概率结果,多少有些颠倒因果的意味在里面。

那么,机器学习中为什么普遍使用贝叶斯学派的观点呢?个人理解,学习一定是知识不断获取并更新迭代的过程。因此,计算机首先通过历史的样本获取到先验知识,然后依照新样本的输入来计算后验概率,更新对该事件的认识,这就是一个贝叶斯公式的过程。

随机变量的矩所描述的是随机变量一系列的基本统计特征,比如期望、方差、偏度和峰度等,均来自矩。而对特征函数E(exp(itX))求所有k阶导又能唯一表示随机变量的所有原点矩,即特征函数可唯一的确定随机变量的矩,所以如果一个函数的特征函数确定,则该函数的分布也就随之确定。

切比雪夫不等式描述了,对于任意存在期望u和标准差s的随机变量X来说,|X-u|落在k·s以外概率的最大上界

,而对于其他常见的分布而言,该上界可以比较小。该不等式的意义在于,它给出了方差对于X分散程度的一种定量描述。

统计学中,可以分别用协方差和相关系数,描述随机变量X和Y之间的关系。协方差有量纲,是它描述随机变量间相关程度的缺点,它的大小与随机变量的度量单位有关,对kX与kY间的统计关系,理论上和X与Y间的统计关系相同,但它们的协方差却差了

倍!为了避免这个问题,可将每个随机变量标准化去量纲,即除以其各自的标准差,相关系数由此诞生。需要注意的是,两个随机变量的相关系数等于0,仅代表两者线性无关,并不能说互相独立。因为独立表示不存在所有关系。因此协方差本身也表示随机变量间的线性关系,这又与微积分中的线性逼近产生了联系!

最后就是大数定理与中心极限定理,大数定理描述做无数次独立重复的实验,样本X的统计均值一定依概率收敛至期望,依概率的意思就是从概率的角度上看与期望相差无二。而中心极限定理描述,独立同分布的任意随机变量加总一定依概率收敛至正态分布。简单说,大数定理描述

趋近于一个数u,而中心极限定理则说明,它是以正态分布的方式趋近于u。

两者在现实中的应用是,保险和对未知随机变量分布的假设。保险,对于每个个体来说,其发生事故的概率不同,但作为人类这个整体来说发生的综合概率一定趋近于其均值,因此保险报销费用的期望是一定的,投保的人数越多,保险公司赚钱的概率就越大。而未知随机变量分布的假设,对一个复杂事件的综合效应,即股票的波动,人们普遍认为它是由任意未知个效应的综合结果,而对其分布最简单合理的假设便是股票波动从中心极限定理的角度服从正态分布,剩下的只需要估计其期望和方差即可。

3、 参数估计:

所谓参数估计,就是通过样本对总体中未知参数进行估计,它是统计推断的基础,是建立统计模型的一个基本步骤。它主要包含2个大类:点估计和区间估计。点估计是得到分布函数中某个参数的特定值,而区间估计则是描述该参数会以多大的置信度落入某个区间。

点估计中最常见的是矩估计和最大似然估计。矩估计,即利用随机变量的样本矩去估计总体矩。它的基本思想是大数定律:无限多次独立重复实验所产生的样本均值依概率收敛至期望,期望是总体分布的一阶矩,由此便建立了样本矩(均值)和总体矩(期望)间的关系,这也被叫作替换原则。矩估计能同时解决在实际中经常遇到的2大问题:第1,在未知总体分布时,可直接求出该总体所有的矩估计值,从而了解其重要的特征量。我们在实验中拿到一批样本数据,经常不管三七二十一先估计它的期望和方差就是这个应用。第2,在已知总体分布时,求解关于未知参数的总体期望和方差的解析式,将解析式与样本矩建立联系求解未知参数估计值。但由于矩估计没有充分利用分布所提供的信息,通常使得参数估计的解析式多于需要估计的参数个数,所以一般情况下,矩估计量不具有唯一性。经验上会选择使用低阶矩去计算未知参数的估计值,因为总体分布的高阶矩有可能不存在。正是由于以上2点,矩估计通常只用于在总体分布未知的情况下去计算样本特征值,而当总体已知时,通常使用极大似然估计法。

极大似然估计:即,最大化似然函数。简单说,它将已发生的随机变量样本值当作已知,而将未知参数看作变量,通过计算最有可能产生该样本的似然函数来估计参数值。方法和公式都很简单,同时符合人们的直观认知。

那么对同一组样本估计出的多个参数值,如何评判它们谁优谁劣呢?这就引出了点估计的4大评判标准:相合性,无偏性,有效性和渐进正态性。

相合性是指,当独立重复试验的样本趋于无穷时,参数的估计量会收敛到参数真实值。相合性是对参数估计量最基本的要求,就矩估计和极大似然估计来说,相合性都由大数定律来保证。因此,对于矩估计和极大似然估计所计算出来的参数估计值均满足相合性。

无偏性是指,对于有限的样本,参数估计量所符合的分布期望等于参数的真实值。当样本无限时,由相合性可知,参数的估计量可以近似认为就是参数本身。但现实生活中无限样本不存在,退而求其次,在样本有限的情况下,我希望由不同样本所估计出的参数本身期望值要等于其真实值。 就正态分布方差的矩估计和极大似然估计来说,都倾向于低估方差,低估量Var(

)是系数为

之间的差异。因此,教科书上所说的样本方差与参数估计所估计出的方差略有不同。

有效性是指,对参数估计值所符合的分布来说,方差越小越好。一般情况下,估计参数越收敛,我们就认为它越接近真实值,基于这一点,当存在符合相合性和无偏性的两个参数估计量时,通常取方差较小的那个更优。

渐进正态性是指,当样本趋于无穷时,去中心化去量纲的参数估计量符合标准正态分布。渐进正态性的概念和中心极限定理有点儿像,若将参数本身作为一个随机变量,不同的参数估计量作为样本,渐进正态性就是一个中心极限定理的特征。(这个比方是否恰当还有待考证。)

最后就是区间估计,即参数在多大的置信度上会落入一个区间,参数估计得越准确,区间越收敛。个人认为区间估计在工程上作用不大,完全就是对自己的估计结果没有自信。若点估计准了,区间估计自然也准,两者只会发生同时准确或同时不准的情况,因此仔细将点估计研究透彻便好。

原文链接:https://www.shangyexinzhi.com/article/details/id-128032/

编辑于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券