#机器学习数学基础# 可导,可微,导数,偏导数...都是些啥?

好不容易大学毕业了,终于逃脱了高数老师的魔掌,以为从今以后再也不用管那些什么极限、微积分、矩阵、共轭、转置、中值定理、拉格朗日、毕达哥拉斯……了。

然鹅,很不幸,当你企图进军机器学习的时候,你发现,当年你不应该在上数学课的时候偷瞄漂亮的女生,暗骂白发的先生,而是应该好好听讲。

后悔是没用的,行动起来,补习功课吧!我们从最基础的求导微分概念开始。

一元函数

先来看最最简单的一元函数的情况:

【导数】:函数y = f(x) 在点x0的某个邻域内有定义, 则当自变量x在x0处取得增量 delta_x,函数输出值也相应取得增量delta_y。

如果delta_y与delta_x的比值在delta_x趋于0时的极限存在,则f(x)在x0处的导数存在,即f(x)在x0处可导。该极限即为f(x)在x0处的导数,记作f’(x0)。

如果函数的自变量和取值都是实数的话,那么函数在某一点的导数就是该函数所代表的曲线在这一点上的切线斜率

【导函数】:若函数 f(x) 在其定义域包含的某区间 I 内每一个点都可导,则成f(x)在区间I内可导。

这时对于 I 内每一个确定的 x 值,都对应着 f(x) 的一个确定的导数值,如此一来就构成了一个新的函数 x -> f'(x) 这个函数称作原来函数f(x) 的导函数,记作f'(x)。

【可导】:有两种情况:

i) 在某点可导:若某函数在某一点导数存在,则称其在这一点可导,否则称为不可导。

ii)在某区间可导:若某函数在其定义域包含的某个区间内,每一个点都可导,那么就说这个函数在该区间内可导。

【求导】:寻找已知的函数在i) 某点的导数或ii) 其导函数的过程称为求导。

【导数 vs 导函数】:导数是函数的局部性质,是一个数,指函数f(x)在点 x0处导函数的函数值。导函数则是指在一个值域空间里面,一个连续函数处处可导。不是所有的函数都有导数,一个函数也不一定在所有的点上都有导数。

在不至于混淆的情况下,通常也可以说导函数为导数。

【可微】:一个函数在其定义域中所有点都存在导数,则它是可微的。若X0是函数f(x)定义域上的一点,且f′(X0)有定义,则称f(x)在X0点可微。

从图像的角度分析,就是说f(x)的图像在(X0, f(X0))点有非垂直切线,且该点不是间断点、尖点。

若f(x)在X0点可微,则f(x)在该点必连续。逆命题则不成立,一个连续函数未必可微——可微必连续,连续未必可微

【连续可微】:函数f(x)的导数f’(x)存在且是连续函数,则f(x)连续可微。

【微分】:设函数 y = f(x)在某区间I内有定义,且在其中一点x0处是可微的。

即:如果函数y = f(x)的增量delta_y = f(x0 + delta_x) - f(x0) 可表示为delta_y = Adelta_x + o(delta_x),其中A是不依赖于delta_x的常数,而o(delta_x)是比delta_x高阶的无穷小。

其中,Adelta_x称作函数f(x)在点x0向应用自变量增量delta_x的微分,记作dy,即dy = Adx, dy是delta_y的线性主部,dx = delta_x.

【可微 vs 可导】对于一元函数,可微与可导完全等价。

可微的函数,其微分等于导数乘以自变量的微分dx,换句话说,函数的微分与自变量的微分之商等于该函数的导数。因此,导数也叫做微商。

于是函数 y = f(x)的微分又可记作 dy = f'(x)dx。

总结一下上面若干概念:

导数/导函数是名词(一个东西),可导/可微是形容词(一种属性),求导/微分是动词(做一件事)。

多元函数

相对于一元函数,多元函数的情况要更加复杂,多出了一个“偏”的概念。

【偏增量】:设函数z = f(x, y) 在点 (x0, y0)的某邻域内有定义,则f(x + delta_x,y) – f(x,y)和 f(x, y + delta_y) - f(x, y) 都是它的偏增量。

【全增量】:设函数z = f(x, y) 在点 (x0, y0) 的某邻域内有定义, (x + delta_x,y + delta_y)为这邻域内的任意一点,则称这两点的函数值之差f(x + delta_x,y + delta_y)- f(x,y)为函数在点(x0, y0)对应自变量delta_x,delta_y的全增量,记作delta_z。

【偏导数】:一个多元函数中,在除了某个变量之外其他变量都保持恒定不变的情况下,关于这个变量的导数,是偏导数。

求偏导数时,除了当前变量之外的变量,被认为与当前变量无关。例如求f(x,y)在(x0,y0)处关于x的偏导数,则此时假定y与x无关。

【全导数】:求全导数中,允许其他变量随着当前变量变化。也就是说求f(x,y) 在(x0,y0)处的全导数的时候,我们假定y随 x变化。

【偏微分】:指多元函数z=f(x,y)的分别针对x和y微分。f(x,y)关于x和y的偏微分分别为:fx’(x,y)dx 和 fy’(x,y)dy。

【全微分】:指多元函数z=f(x,y)的全增量delta_z的线性主部,记作dz。

一个多元函数在某点的某邻域内的各个偏导数都存在,且偏导函数在该点都连续,则在该点该多元函数的全微分存在。

【可微】:一个多元函数在某点的全微分存在,则该函数在该店可微。

换言之,如果一个多元函数的所有偏导数在某点的邻域内存在且连续,那么该函数在该点可微。

若多元函数在某点可微,则此函数在该点必连续。逆命题也不成立——可微必连续,连续未必可微

【偏微分和全微分的关系】:dz= fx’(x,y)dx + fy’(x,y)dy —— 全微分等于偏微分之和。

原文发布于微信公众号 - 悦思悦读(yuesiyuedu)

原文发表时间:2017-03-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

R语言与机器学习(分类算法)logistic回归

由于我们在前面已经讨论过了神经网络的分类问题,如今再从最优化的角度来讨论logistic回归就显得有些不合适了。Logistic回归问题的最优化问题可以表述为:...

6814
来自专栏深度学习之tensorflow实战篇

R语言与机器学习学习笔记(分类算法

logistic回归及其MLE 当我们考虑解释变量为分类变量如考虑一个企业是否会被并购,一个企业是否会上市,你的能否考上研究生 这些问题时,考虑线性概率模型P...

4698
来自专栏专知

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

【导读】专知内容组既昨天推出八篇情感分析(Sentiment Analysis)相关论文,又

1773
来自专栏鹅厂优文

游戏人工智能 读书笔记 (六) AI算法简介——演化算法

Chapter 2.8 Hybrid Algorithm: Neuroevolution

2759
来自专栏yw的数据分析

R语言各种假设检验实例整理(常用)

一、正态分布参数检验 例1. 某种原件的寿命X(以小时计)服从正态分布N(μ, σ)其中μ, σ2均未知。现测得16只元件的寿命如下:           ...

7474
来自专栏大数据文摘

微软AI面试题有多难?这里有一份样卷

1719
来自专栏量化投资与机器学习

【年度系列】监督学习标签在股市中的应用(代码+书籍)

由于低信噪比和非平稳的价格分布,预测未来股票价格走势是一件十分困难的事。现在流行的机器学习算法通常会给你带来不怎么满意的结果。

1826
来自专栏老秦求学

[数据可视化之一]Pandas单变量画图

pandas库是Python数据分析最核心的一个工具库:“杀手级特征”,使整个生态系统融合在一起。除了数据读取、转换之外,也可以进行数据可视化。易于使用和富有表...

2582
来自专栏自然语言处理

程序员眼中的统计学2

均值有两种计算方法:第一种计算方式是:将所有的数字加起来,然后除以数字的个数 。可用记为:µ=∑x/n。另一种计算方法是把每个数的频数考虑进去了的,它表示如下:...

843
来自专栏小小挖掘机

推荐系统遇上深度学习(四)--多值离散特征的embedding解决方案

在本系列第三篇文章中,在处理DeepFM数据时,由于每一个离散特征只有一个取值,因此我们在处理的过程中,将原始数据处理成了两个文件,一个记录特征的索引,一个记录...

2575

扫码关注云+社区