文章/答案/技术大牛

发布

首页视频I_理论/005_尚硅谷_机器学习入门_数学基础（下）

I_理论/005_尚硅谷_机器学习入门_数学基础（下）

2022-12-022022-12-02 16:02:22播放39

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据技术之机器学习和推荐系统/4.视频/I_理论/005_尚硅谷_机器学习入门_数学基础（下）.wmv

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
接下来这一部分就是高数这个微积分这一部分啊呃，大家回忆一下啊，我们主要回回顾哪些内容呢？大家只要回忆起这几个概念就可以，首先是导数，然后从导数我们就继续去回忆，回忆起来偏导数，后面还有一个叫方向导数和梯度，这个大家可能导数偏导数还有印象，后边是不是这个方向导数梯度就已经有点没印象了啊，所以等一下我们还是回忆一下啊，然后最后还有一个凸函数，凹函数，这个大家应该还是有点印象的，是不是没关系啊，到时候我们那个看一眼后面个图可能大家就想起来了。好，首先回忆一下导数，什么是导数，大家还记得吗？什么什么是导数化变化，诶变化率哎，有的同学想到变化率，还有同学我听到啊，说到斜率对吧，非常好，大家其实只要记得这两个概念，那其实就是对导。
01:00
数的概念还是很清楚的啊，因为大家首先想一下，我们说导数说的是谁的导数，我们说导数往往会说求导对吧？对谁求导对，一般是不是都要对函数求导啊，我们一般求导的时候是对Y求导对不对？Y一般是Y等于FX是不是一个函数啊，对，所以我们是对函数求导。好，我们回忆一下这个绿色的曲线是不是相当于是一个Y等于FX的一个函数啊啊，FY等于FX一个曲线啊，那么这个曲线大家会看到任意在上面取一个点。其实是不是它会有一个变化的过程啊，那所以我们就就会想到我们之前学过的导数，其实就描述了，比方说这里取一个点P，在这一点上这个函数的变化率对不对？那对应的几何概念的话，那就是是不是就是在这一点上做一条切线对吧？这条曲线的切线，那这个切线的斜率是不是就是我们这一点处的变化率啊啊，这是我们大家可能有这个直观的印象，那它本身的定义和概念是什么呢？再给大家回顾一下啊，大家一看就好像有点有点头疼，对不对，这这是什么概念？这是，这是我们高数里边定义出来的概念对不对？呃，高中其实导数这个概念应该是高中就学了，但是高中是不是没有这样的一个精确定义啊，有有过是吧，啊，我可能记不太清楚，可能我比大家就是。
02:42
大几岁，当时学的可能会会没有这个东西，对吧？那么大家会看到啊，在这个定义里边，我们定义的是一个什么呢？其实就是想要比方说我们这里取了一个点P，它对应的自变量是不是这个X啊，对吧，我们找到它这个X，我们是不是想要让这个X增大一小截儿，然后去考察这个Y能增大多少对不对，然后我们想到这个比例是不是就相当于是它的变化率啊，所以我们考察的是不是得尔塔Y比得尔塔X的这个比例啊，对，就是在自变量增大一块的时候，看看对应的这个Y能增大多少。
03:28
那这里大家会看到我这里如果增大这么多德尔塔X，是不是Y就增大了这么多啊，如果说我的这个X1步现在是一步走了这么远，我如果要走的更小一点的话，诶对，大家会想到这个Y是不是就会越来越小，越来越小，到这里是不是就这一小段就趋近于一条直线了呀。然后大家会想到德尔塔X趋近于零的时候，这个求出来的极限是不是就相当于成了在这一点处的变化率，而且那么大家想到对应的那一个直线的变化率是不是就是这条切线的斜率啊，哎，所以这就是把我们之前学过的内容都给大家回顾一下，导数其实就是在X，就是P这一点处，我们让它的X增大一小截，增大一小点，然后看它的Y能增大多少，然后算一下这个比率，它对应的就是在这一点处的变化率，或者说切线的斜率，对吧？诶，这里大家要注意一点，我们之前可能没有强调，没有强调什么呢？我们这里的这个X趋近于零。
04:43
在这里其实没有强调它从哪个方向趋近于零，对不对，那如果我们要说变化率的话，那可能就有就有问题了，我们这里看到它的这个变化率斜率是这应该大于零对不对，那我们应该说这一点，它的变化率应该是大于零，应该它是会越来越大的，对不对。
05:04
那你得看是不是它朝着哪个方向变化啊，如果我沿着朝着这个X增大的方向的话，那这个Y越来越大没毛病，如果我要是沿着X减小的方向，是不是反而它应该越来越小啊？所以我们导数本身定义的这个变化率，它应该是沿着哪个方向？对，是不是应该是X，我们是让它增大一点对不对？所以我们沿的是X轴增大的方向。啊，这里给大家确定一点啊，啊，所以这里给一个定义出来，就是导数反映了一个变化率，什么变化率呢？函数FX在某一点处沿着X轴，也就是自变量正方向的变化率啊，这是我们导数的概念，当然大家可以知道，就是如果我们求导求出来这个FX1撇，我们一般是拿这个一撇来表示导数对不对，如果它大于零的话，说明什么呢？
06:03
对，是不是沿着这个X增大的方向，它会增长啊，啊，说明它这个是趋于增加，如果小于零是不是趋于减少啊，啊这是我们已经学过的啊，已经大家很清楚的导数的概念，有了导数的概念之后，就接下来大家再回忆一下，我们这里提到的Y等于FX，是不是只有一个X一个Y啊。那实际的一些问题里边是不是会遇到，有些时候是不是这个X不止一个啊，我们的变化的因素是不是有很多个啊，这种问题是不是经常常见啊，那大家会想象一下，这相当于变成了一个什么函数啊？是不是相当于有两个X一个Y，这是不是就变成了一个二元函数啊？大家回忆一下啊，之前应该是学过这些内容的，是不是大家回忆一下，可能之前不会太重点的去介绍啊，大家现在需要去回忆一下，所以如果说我们这里啊，就是两个X，我们两个自变量用X和Y表示，然后我们的那个函数，那个因变量用Z来表示的话，那写出来是不是应该是Z等于FXY啊对吧？XY是不是就都变成变量自变量了，然后Z应该是它的一个函数，大家看一下画出图像来，是不是就变成了一个三维的立体图像啊。
07:32
诶，大家看一眼，下边是不是就是X轴Y轴，这是自变量的两个轴对不对？所以我们自变量取值的时候，是不是相当于在下面的这个底面，这个平面上去取取点啊，取到的点是不是就对应于我们的一个自变量对吧？一个自变量相当于有两个维度，两两个自变量值，那对应的函数值是不是这里的这个ZZ等于FX对吧？FXY，如果我们把所有的函数值画出，画出来连成一个曲，这就不是曲线，是不是会变成一条个曲面啊？呃，就是这个蓝色的曲面，是不是就代表了Z等于FXY这样一个图像。
08:16
呃，大家回忆一下啊，这是二元函数的一个图像。那这个时候我们就会想了，对于一元函数Y等于FX，我们用导数就可以知道它沿着X轴正方向这个增大方向的一个变化率，那现在这个Z等于FXY。它这个函数的变化率我们可以去描述出来吗？我们是不是也可以去描述它的变化率啊，你既然要描述变化率，那大家就会想到我是不是还是得指定一个方向啊，因为现在整个它是个曲面，你直接说变化率，我我完完全懵了，我不知道你你沿着哪个方向变对不对，有些地方它增大，有些地方减少，你得告诉我沿着哪个方向变。
09:06
那我们最基本的是不是能想到，还是我可以沿着它的两个轴去变啊。我现在的自变量是不是一个X一个Y啊，我是不是可以看它沿着X轴变化率怎么样，然后可以看看沿着Y轴变化率怎么样，对不对，这是不是就相当于我们一个函数沿着自变量变化而变化，看它的变化率对不对，那这个里边就有又有一个问题，那我们现在是两个自变量啊哦，所以我们就有一个想法，或者说有一个。呃，有一个做法就会出来了，我们是不是可以假装一个自变量，把它给确定啊，把它当成一个常量来看，那是不是我们整个函数里边就只剩下一个自变量了，哎，那这个时候大家看，如果说我们把Y当成常量的话。Y等于Y0，直接把它当成常量带到这一个函数Z等于FXY这个函数里边来，大家会想到它会出现一个什么情况，对，这是不是相当于用ZY等于Y0对于我们这个空间来讲，是不是一个竖直的平面啊，是不是截着这个Y垂直于Y轴，一截Y轴截出来是Y0对不对？所以它上面所有的点是不是纵坐标Y0都是，就是Y的值都是Y0对吧？所以这么一个平面，假如说我们要求。
10:36
函数里边的所有Y都在这个平面上的话，那是不是相当于是用这个平面把我们的这个曲面做了一个截了一下呀，截出来的曲线是不是就得到了一个，它们的这两个曲面和平面是不是有一个交线，得到的交线是不是就是我们函数里边Y等于Y0时候得到的那个函数？
11:02
那家就会想到这个函数是不是只对X变化啊，哎，所以大家就会看到这个这个函数啊，就是绿色的这个交线对不对，是不是就跟我们前面讲的一元函数里边的导数是一样啊。那我们再在上面求，拿一个点M，要求它的变化率，是不是就是这里这个切线的斜率啊，这个斜率怎么求？哦，那大家会想到这是不是一样的啊，我们这里是不是就是X去增大一个德尔塔XY0不要变是不是就就好了呀，把这个搞定就可以了，所以我们的公式其实就是这样去做，最后得到的就是沿着大家会看到是不是就是沿着X轴正方向的一个变化率啊，大家看X轴正方向这个方向对不对，我们这里的这个斜线的这个斜率是不是也是沿着这个正正方向来考察的。这就是我们偏导数的概念，所以固定Y对X去求一个导数，就像一元函数一样去求一个导数，得到的这个值就叫做在这一点处的对X的偏导数。
12:15
对吧？好，大家回忆一下啊，所以其实导数和偏导数它本质是一样的，只不过就是对于多元函数而言，我们嫌它麻烦，因为你那么多的多，那么多的自变量都在同时变化，这个我们就搞不清楚了，所以我们就把一个想考察的自变量留下，别的都把它当成常量对不对？都导都当成常量之后，那这个多元函数是不是就变成一元函数了，是不是跟之前的导数一模一样啊，那对应的几何意义就是我们截一个平面截出来的这条线去求一个它的斜率对不对啊，所以啊，大家会看到最后它的表达式是这样。当然这个表达式里面大家会看到不是XY了，它是把它更加一般化，是不是我们的你就有几几元函数都可以啊，自变量是不是可以有N个N加一个对不对？从X0 x11直到XN，你有N个都可以，那我们对某一个XJ，某一个维度求偏导的时候，是不是就是只把这个维度加一个德尔塔X，别的全当成常量不变啊？哎，就是这样的一个求法，好，那么呃，所以这是这个偏导数的概念。
13:30
大家回忆一下啊，这一部分还是要衔接上，如果衔接不上的话，后面可能就大家会更更难以回忆起来了。接下来我们要讲的就是更进一步讲方向导数，那什么是方向导数呢？大家在上面的这个图里面，其实已经可以看到，我如果对于这个函数而言啊，对X求一个偏导，求出来是不是就是在这一点上沿着X轴正方向的一个变化率，然后对应我是不是还可以对Y求一个偏导啊，对外求出偏导来是这一点上干什么呢？是不是沿着Y轴正方向的一个变化率啊？那大家可能就会想到了，我在这么一个曲线上啊，这么一个空间坐标里边，我只有这么两个方向吗？
14:21
我在之前一维的那个维度上看起来的话，好像只有X中正方向、负方向两个方向对不对？那我没得选，我就选正方向好了，但是在这个三维的这个空间，或者说对于我们的自变量而言，它有两个取值的时候，它的自变量是不是一个二维的取值啊？那它的方向是不是不光只有这个X轴和Y轴两个方向，我随便找一个方向可不可以呢？那我能不能求随便找一个方向，它沿着这个方向的变化率啊？这是不是一个问题啊，所以为了解决这个问题，就又引出了另外一个概念，就是这里所谓的方向导数，那同样方向导数跟前面的导数偏导数一个意思，它也是要找一个变化率，那这个变化率是什么呢？它就是不去确定它一定是沿着某一个轴正方向的变化率，对不对，就是任意方向都可以。好那么我们来看一下，比方说大家看我如果把这一个前面，我们截这个平面的时候，是不是如果固定Y的话，那是不是应该是垂直于Y轴，就是平行于X轴，这样竖着截下来，如果反过来，如果要是固定X的话，那是不是应该平行于Y轴去横着截一道啊，那现在大家看我既不垂直于X轴，也不垂直于Y轴，可不可以，我是不是可以这么这么斜着来截一道啊，这么截出来之后大家想一想。
15:54
这条曲线上所有的点，它的变化有一个什么规律呢？是不是这个它在变化的过程当中，是不是就是不是某一个自变量就固定了，而是XY是不是同时要变，但是它变化是不是这俩有一定的规律啊，是不是成比例在变啊，所以它是不是就是沿着这个方向在走啊？
16:18
如果我们把这个连起来，德尔塔X，德尔塔Y做一个这个向量夹角的话，这是不是就是沿着这个L这个方向在变化。诶，所以大家会想到我这里边德尔塔X如果小一点的话，对应是不是Y也小一点，同样还是在这个方向上啊，越来越小，是不是对应到我们这里，就是这里这个切线的斜率啊，啊所以这个概念跟我们前面讲到的导数偏导数是一样的，只不过把它斜过来了，当然这里斜过来之后。呃，大家就会想到啊，那它的这个定义会是什么样子呢？那就是不光是一个X变化了对不对，那所以就很有可能每一个X都要变化，那这个方向它是怎么限定的啊，其实就是说我们这里边的这个L的方向，它这里边的每一个自变量的变化是不是应该是成比例的啊，所以我们最后除除的这个变化率是不是应该除的，是总共变了多少，是不是应该是它的这个模长。
17:18
大家看下面的这个算法是不是它的模长啊，啊，这就是这个方向导数的定义，当然方向导数大家只要能够想到它是任意方向的变化率就可以了，我们关心的其实并不关心它任意方向的变化率。我们想关心什么呢？这里大家可能会想到我们之后要给大家讲解这一个，继续学习相关的一些算法，要讲这个，呃，就是跟这个推荐相关，都有一些算法要去求解，对不对，我们最后求解模型的时候，是不是应该得有一个目标啊。那我们的目标是什么呢？往往就是要制定一个目标函数，然后去求这个函数的最大值或者最小值，这是不是就是一个目标？哎，如果把这个求解出来了，那我们把这个模型就计算出来了，所以大家如果针对这样的一个问题的话，我们其实最关心的并不是说你现在在某每一个方向上它的变化率是什么，我其实是不是想要知道。
18:29
你沿着哪个方向变化的快啊，如果沿着某个方向变化的快，我去沿着这个方向去找最大值，最小值，是不是就会比较有效率啊？哎，这是我们的一个基本的想法，所以这里边我们方向导数不重要，我们关键是要跟从这个概念引出下边这个重要的概念，叫做梯度，那梯度英文名字叫做gradient，那么它本身是一个什么概念呢？好，我们先把这个问题先列出来啊，大家想一下。
19:04
我们这里面有一个函数啊。在空间某一点处，大家看到这个函数，这这有点像一个山坡一样，对不对？那么这样一个函数曲线放出来了，我们任意取一个点，大家看取到这个点之后，怎么样能够知道它沿某个方向能够有最大的变化率呢？它沿着哪个方向有最大的变化率呢？大家想一想。有同学可能想到我们前面不是讲了方向导数吗？你把所有的方向全求一遍，我们把最小的那个选出来，这不就是它那个对吧？360度全求一遍，这个显然是不靠谱的一一件事情，对吧？你的那个划分的那个维度，它是个连续的值，你你这个怎么去求呢？这然不靠谱，那这个对于我们而言，其实是有一个结论的，在某一个方向上，它的变化就是最大的，哪个方向呢？
20:04
这个方向就叫做梯度，那么梯度它是，呃，刚才只是说了定义对吧，就是变化率最大的那个方向叫梯度，那么梯度本身它在数学定义上是怎么算出来的呢？大家看一眼，这是梯度的定义。梯度怎么算出来的？梯度这里是一个向量，对不对？哎，大家会想到一个向量是不是就代表了一个方向，诶，所以大家会想到梯度其实就是一个向量，它应该是有方向，有大小，对吧？好，那么大家看一眼它里边的这个向量每一个值是怎么算的？第一个值就是F对第一个自变量求偏导对不对，然后第二个就是对第二个自变量求偏导，然后它每一个位置的值是不是就是对每一个自变量对应的那个自变量求偏导之后的值啊，我们每一个维度其实就是求了它的偏导。
21:05
所有的偏导合在一起构成的这个向量，它的方向就是变化最快的那个方向。大家觉得这个能够理解吧，能理解是吧？哎，那大家注意啊，我们前面说了，它这个构成的梯度，这是一个向量，既然是向量，那就有方向，还应该有对，还应该有大小，有模长对不对？那大家想一下它的这个大小代表什么？方向代表变化最快的那个方向，那它的大小是不是就代表了对变化最快的那个方向对应的变化率对不对，也就是最大的变化率，所以这就是梯度的概念。好，那么大家可以就是把把这几句话好好的读一读，去想一想里边的道理啊，回顾一下这一部分内容，这部分可能是就是我们整个数学回顾这个一些数学基础的过程当中最难理解的一部分，或者说是之前如果大家学的比较透彻的话，可能回忆一下就可以，如果之前就没有学透彻，或者甚至甚至有些可能老师不讲梯度对吧，有可能就是讲到方向导数就不讲梯度了，所以那这一部分可能会就是大家可能会需要再好好理解一下，因为这个涉及到我们之后的算法，有一个方法大家可能也听说过，叫梯度下降法，对不对啊，这个这个算法就是基于梯度来做的啊，所以大家会看到梯度是一个向量。
22:34
既有方向又有大小，它的方向就是最大方向导数的方向，也就是说变化率最快的那个方向对不对，然后它的大小就是哎，最大的那个变化率，它的值就是最大方向导数的值。啊，这就是梯度这一部分，然后还有一部分是凸函数和凹函数，这个其实概念就相对比较简单了，大家应该一看函这个图形就想起来了，对不对？那么图函数一般怎么定义呢？啊，一般给它的定义是大家会看到这个是不是沿着X轴正方向它有一个啊，有一个大肚子凸起来的这样的一个一个形状啊。
23:13
所以往往啊，有时候为了明确的说，往往会把它叫做下图函数，对不对啊，因为有有些同学说你这边沿着X轴正方向，这也是凸函数啊，这不是也是凸起来了吗？所以一般就是我们就是对它做一个明确的说法，一般会把它叫做下图函数，那么这个图函数有一个什么定义呢？就是任意取两个两个点，它的自变量对应的这个值，我们找到那个函数值对不对，这两个点连接一条直线。这条直线中间取任意取一个点，如果说它都在啊，我们中间的这个函数值的上方的话，也就是说你中间取的这些函数值如果都在这条连线的下方的话，我们就把它叫做图函数，对不对啊，这是一个标准的定义啊，那对应的这个连一个点是不是这个就函数曲线就都在它上方了，这个就叫凹函数，当然这个可能跟我们一一般的这种大家一一的印象有点不一致，对吧？所以大家只要是知道它怎么回事就可以了，那么大家想一下，这样的一个凸函数，它应该有可能会有什么什么点。
24:28
如果我们想要去求解一个目标函数，想要找到它的最大值，最小值的话，对，如果是凸函数的话，对，是不是很有可能能够找到一个最小值或者说极小值啊，如果是凹函数的话，那这个极小值是不是应该是不太可能找到啊，大家会想到这里这个就无穷小去变化减小了，对吧？那么它有可能找到什么值？对，有可能找到最大值，所以大家有有这样一个概念先，那当然了，这里我们只是一维的函数，多维的函数是不是也可以啊，同样大家会看到左边这个，诶，大家会看到这是不是一个下图函数，任意连接里边的两个点，是不是所有的函数图像都在它的下方啊？诶，所以这是一个下图函数，那同样右边这个，这就不是一个简单的凸函数或者凹函数了，大家会看到它是不是有有凸下去的，有有那个凸起来的，对吧，凹凸不平，所以。
25:29
它其实就是局部的极小点和极大点对不对？极小值极大值这样的一个函数，这个跟我们常规的想法可能不太一样，大家会想到如果是这个三维的函，这样一个图形的话，我们会觉得应该是凸起来，像小山帮这样的，应该叫图函数，对不对？但是从数学定义上一般是下图函数，所以反而是挖下去的这个函数叫做图函数，它是有极小点的，对不对，对吧，有最小点的。接下来我们在用很短的时间给大家把这个概率统计相关的基础知识也做一个简短回顾吧，我们主要是回顾这几方面知识，常用的统计变量，然后呢，还有就是常见的概率分布，还有重要的概率公式，这个其实一说应该大家都有印象，常用统计变量，这个大家其实这个应该常见对吧，比方说样本均值，这什么意思啊，对我们是不是有一堆数据。
26:29
我们要去做采样，或者说我们已经采样好的一堆数据，这就是样本点对不对？那我们想要去求均值的时时候，是不是把所有的数据全部加起来求一个平均数啊，啊，这非常简单啊，大家可能看这个表达式有点绕，但是其实很简单，这个西格玛符号表示求和，求和求起来再除以个数，是不是就是平均数啊，啊，非常简单啊，然后还有一个基本概念，样本方差，这个大家还有印象吗？这个是什么概念，是不是就是对相当于跟均值的一个偏离程度啊，大概就是要看我们这个整个的样本，它数据的这个偏离程度有多少，对不对？那么我们看到它的计算方法就是先算出均值。
27:17
然后每一个值是不是要减去均值求平方和，最后类似于求一个平均数对不对？除的是N减一，当然这个里边就是有一些，这个为什么不除以N除以N减一呢？啊，这个就涉及到这个概率统计里边，要去用它来做这个所谓的呃，方差的极大自然估计对吧？啊，这个我们就不去不去回忆了，大家只要大概知道它其实就是一个跟平均值的偏差的平方和，求一个平均数就好了，这就是方差，那另外还有一个概念就是标准差对不对？标准方差或者叫标准差，它其实就是把前面的方差开了一个根号，好，那接下来我们看一下常见的一些概率分布。
28:04
常见概率分布的话，这个就给大家回忆几个最简单的吧，比方说均匀分布，大家还有印象吗？均匀分布代表什么啊？是不是就是比方说代表在A到B这个范围内，它的概率是不是一样啊？平均分布在这个范围内对不对，那么所以我们这里边有一个概率密度函数啊，它在这里是不是就是一条直线啊，啊，所有在这个范围内，它的概率密度都是一样的。那更常见的，或者说更接近割，更接近于这个真正的样本分布，或者说我们实际的数据分布的状态的，那应该是这个对不对啊，一般不会那么均匀啊，一般都是这样的一个正态分布，或者叫高斯分布，那大家会想到它的分布有一个什么特点，是不是就是大多数都集中在中间，然后越往两边是不是越小，对吧？所以所以这其实也符合大家大家一般的这种认知或者说习惯，就是就是好比我们一个班同学的这个成绩也是这样的，那一个班里边肯定都是中等生最多，对不对？呃，成成绩特别好，特别优秀的同学是少数，然后可能成绩特别差，跟不上的同学可能也是少数，所以大多数同学应该是集中在中间这一部分啊，当然基于这个高斯高斯分布，大家就这里边是不是有这个谬和西格玛的概念啊，呃，大家家会看到这个缪是代表。
29:35
这个偏差的这个就是均值的这个位置对不对，然后这个西格玛是不是代表它的样本方差啊，所以大家会看到我们在一般这个呃，很多在很多的场场合，很多这个质量管理里边也会提到，比方说这个几西格玛，几西格玛大家听说过，比方说四西格玛，五西格玛，那么这代表什么意思，其实就是说大家看一西格玛代表什么呢？其实就是正负一西格玛的范围内，是不是68.26%的这个概率都会数据，这个概率都会落在这个范围内啊，你如果要是二西格玛的偏差，那其实就可以涵盖95%的数据了，三个西格玛就已经到99%以上了，对吧？啊所以呃，有一些这个质量管理它是要精确到小数点后，很很高的几位，所以就会涉及到什么4S格玛，5S格玛，甚至6S格玛啊，这是一些，呃，大家可能会听到的一些东西啊，啊，当然这个本身这个正态分布，这。
30:35
呃，公式还是比较复杂的，它是一个指数函数，对不对？最基本的这个还是一个指数函数，后面我们还有一个这个指数分布，大家会看到正态分布里边也是有一个指数项的，那指数分布这个就会更明确一点，它其实就是。概率密度函数是一个指数函数，对不对，那么它的分布函数是一个什么样的样子呢？它也是很有特点，什么特点呢？大家看啊，就是接近这个零的时候，或者说接近于Y轴的时候，它是不是这个函数值会变的越来越快啊。
31:13
啊，所以大家看它的这个函数图像是非常贴近我们的两个轴对吧，接近于Y0的时候，这个变化特别的快，然后接近于无穷大的时候，变化会越来越慢，越来越慢，而且大家会看到是无无限趋近于零了，对不对，所以这是指数分布的一个特点，那指数函数或者说指数分布的这种特点在后边给大家讲一些。及学习算法的时候也会用到，就是用到它这样的一个特别贴近两个坐标轴的这种函数曲线的特性啊，这个就是我们讲到之后再说就好了，最后再给大家复习几个重要概率公式啊，这个提一句吧，条件概率大家记得吗？条件概率PB1-A这个代表什么？代表对A发生的情况下B发生的概率是一个条件概率对不对啊，所以它等于什么呢？是不是就等于对这个分子上，是不是就是A同时发生的概率啊，然后下面APH就是A本身它自己独立发生的概率，所以这是这个条件管理公式，这个很简单，大家应该都记得，那下面就稍微复杂一点啊，全概率公式大家还记得吗？
32:27
啊，这个其实也就是条件概率的一个，大家会看到这其实就是一个类似于一个变种，对不对，那么它代表什么呢？就是把我们A这个状态是不是分成了很多种情况啊，分成了很多种情况的叠加，那么它分成哪几种情况呢？哎，就是根据B来分对不对，B1的情况，B2的情况，BN的情况一知道。那么大家就会想到在B1发生的情况下，然后A发生的，大家看它还又成了一个这个条件概率，那乘起来这一项相当于是什么，是不是就相当于是PAB1啊，是不是就是我们这里的这个分子项啊，把这个乘过去是不是就是这个形式，诶，所以我们这里边拿到的其实就是PA1和B1同时发生的概率，所以它其实这个概率就代表什么呢？
33:26
就是A和B1同时发生的概率，再加上A和B2同时发生的概率，一直到A和BN同时发生的概率，那这是不是就相当于是在如果B1到BN把所有的情况都变利了，都变利完的话，那这是不是就是不同情况下的一种叠加啊，哎，所以这其实就是全概率公式，各种各样的情况把它叠加起来啊，这个大家简单回顾一下啊，最后还有一个啊，贝耶斯公式，这个就一个比一个更复杂了啊，这个大家如果忘记的话，我就提一句就好了，这是在干什么呢？这其实也是上面的一个结合，大家会看到他下边的这一个，大家首先看到这里是不是要求一个条件概率啊，A发生的条件下，BI发生的概率对吧？
34:14
它已知的是什么东西呢？用什么去求它呢？已知是反过来是BI发生的条件，发生的时候，A发生的条件概率都已经知道了，对不对，而且每一个BI发生的概率都知道了，所以大家会想到这其实是一个什么问题啊，这就是我们所谓的诶，就是先验概率后验概率的问题，你知道一堆所谓的先验概率，然后最后求一个后验概率的时候，就是反过来求，那这个反过来求怎么求呢？这就有点像是什么我已经，呃，就是相当于我知道在每一个B1，每一个BI2 B1bi1直到B每一个条件下A发生的概率，然后现在我A真的发生了，我反过来问它到底属于BI里边哪一类呢？是不是这样一个问题啊，那它是这样一个问题，就是反过来去去问，那么它怎么去算呢？大家看上边这个是不是就是。
35:15
对应的这个条件概率乘起来是不是就是BI这种情况下发的概率啊，对吧？呃，这是不是就是我们这里这个条件概率乘起来，它同时发生的概率除以除的是什么？求和，每一个BJ发生的情况下，它的这个条件概率最后再求和，是不是就是全概率公式啊啊，所以它其实求的就是说里边的某一项现在不是BI真正发生了吗？我就把那一项拿出来，然后除以总共的这个概率就完事啊，这就是贝S公式对吧？大家回顾一下就可以，为什么给大家讲到这些，就主要是因为机器学习里边有一大有一大块儿啊，就是还是基于贝叶斯公式，基于概率的这个模型去做我们的机器学习去创建模型的，但是这一块我们可能只是简单的提一提，不会去给大家详细展开啊，但是大家如果学机器学习的话。
36:15
这部分肯定还是得知道的啊，你不能说是啊，那这一部分我们就先讲到这里，这是数学基础这一部分。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之机器学习和推荐系统

（35/66）

7分15秒

000_尚硅谷_机器学习和推荐系统_课程简介

600

30分47秒

II_电影推荐项目/037_尚硅谷_电影推荐系统_项目系统设计（上）

520

13分56秒

II_电影推荐项目/038_尚硅谷_电影推荐系统_项目系统设计（中）

510

32分14秒

II_电影推荐项目/039_尚硅谷_电影推荐系统_项目系统设计（下）

410

24分14秒

II_电影推荐项目/040_尚硅谷_电影推荐系统_项目框架搭建

390

16分27秒

II_电影推荐项目/041_尚硅谷_电影推荐系统_数据加载模块（一）

410

21分44秒

II_电影推荐项目/042_尚硅谷_电影推荐系统_数据加载模块（二）

440

17分11秒

II_电影推荐项目/043_尚硅谷_电影推荐系统_数据加载模块（三）

390

19分19秒

II_电影推荐项目/044_尚硅谷_电影推荐系统_数据加载模块（四）

510

23分47秒

II_电影推荐项目/045_尚硅谷_电影推荐系统_数据加载模块（五）

500

30分15秒

II_电影推荐项目/046_尚硅谷_电影推荐系统_统计推荐模块（上）

450

24分11秒

II_电影推荐项目/047_尚硅谷_电影推荐系统_统计推荐模块（中）

400

26分26秒

II_电影推荐项目/048_尚硅谷_电影推荐系统_统计推荐模块（下）

450

34分28秒

II_电影推荐项目/049_尚硅谷_电影推荐系统_基于LFM的离线推荐模块（上）

320

17分12秒

II_电影推荐项目/050_尚硅谷_电影推荐系统_基于LFM的离线推荐模块（中）

420

29分12秒

II_电影推荐项目/051_尚硅谷_电影推荐系统_基于LFM的离线推荐模块（下）

390

25分7秒

II_电影推荐项目/052_尚硅谷_电影推荐系统_ALS模型评估和参数选取（上）

370

17分4秒

II_电影推荐项目/053_尚硅谷_电影推荐系统_ALS模型评估和参数选取（下）

390

33分18秒

II_电影推荐项目/054_尚硅谷_电影推荐系统_实时推荐模块（一）

490

32分6秒

II_电影推荐项目/055_尚硅谷_电影推荐系统_实时推荐模块（二）

380

26分11秒

II_电影推荐项目/056_尚硅谷_电影推荐系统_实时推荐模块（三）

390

31分31秒

II_电影推荐项目/057_尚硅谷_电影推荐系统_实时推荐模块（四）

420

23分18秒

II_电影推荐项目/058_尚硅谷_电影推荐系统_实时推荐模块（五）

340

13分30秒

II_电影推荐项目/059_尚硅谷_电影推荐系统_实时推荐模块测试

380

22分16秒

II_电影推荐项目/060_尚硅谷_电影推荐系统_基于内容推荐模块（一）

410

23分45秒

II_电影推荐项目/061_尚硅谷_电影推荐系统_基于内容推荐模块（二）

390

15分41秒

II_电影推荐项目/062_尚硅谷_电影推荐系统_基于内容推荐模块（三）

400

19分17秒

II_电影推荐项目/063_尚硅谷_电影推荐系统_基于内容推荐模块（四）

320

26分53秒

II_电影推荐项目/064_尚硅谷_电影推荐系统_实时系统联调测试（上）

400

24分53秒

II_电影推荐项目/065_尚硅谷_电影推荐系统_实时系统联调测试（下）

410

38分3秒

I_理论/001_尚硅谷_推荐系统简介_概述

420

31分3秒

I_理论/002_尚硅谷_推荐系统简介_推荐系统算法简介

470

29分28秒

I_理论/003_尚硅谷_推荐系统简介_推荐系统评测

410

35分4秒

I_理论/004_尚硅谷_机器学习入门_数学基础（上）

390

36分23秒

I_理论/005_尚硅谷_机器学习入门_数学基础（下）

390

23分11秒

I_理论/006_尚硅谷_机器学习入门_机器学习概述

350

26分18秒

I_理论/007_尚硅谷_机器学习入门_监督学习（上）

400

32分45秒

I_理论/008_尚硅谷_机器学习入门_监督学习（中）

420

29分40秒

I_理论/009_尚硅谷_机器学习入门_监督学习（下）

400

32分51秒

I_理论/010_尚硅谷_机器学习模型和算法_python简介

430

31分38秒

I_理论/011_尚硅谷_机器学习模型和算法_python基础语法（上）

370

22分48秒

I_理论/012_尚硅谷_机器学习模型和算法_python基础语法（下）

370

27分48秒

I_理论/013_尚硅谷_机器学习模型和算法_线性回归（上）

460

24分35秒

I_理论/014_尚硅谷_机器学习模型和算法_线性回归最小二乘代码实现（上）

380

15分21秒

I_理论/015_尚硅谷_机器学习模型和算法_线性回归最小二乘代码实现（下）

320

23分25秒

I_理论/016_尚硅谷_机器学习模型和算法_线性回归（下）

450

25分38秒

I_理论/017_尚硅谷_机器学习模型和算法_线性回归梯度下降代码实现

450

8分14秒

I_理论/018_尚硅谷_机器学习模型和算法_线性回归调用sklearn库代码实现

410

15分10秒

I_理论/019_尚硅谷_机器学习模型和算法_K近邻

370

31分11秒

I_理论/020_尚硅谷_机器学习模型和算法_K近邻代码实现（上）

410

29分17秒

I_理论/021_尚硅谷_机器学习模型和算法_K近邻代码实现（中）

360

33分34秒

I_理论/022_尚硅谷_机器学习模型和算法_K近邻代码实现（下）

340

22分40秒

I_理论/023_尚硅谷_机器学习模型和算法_逻辑回归（上）

360

20分31秒

I_理论/024_尚硅谷_机器学习模型和算法_逻辑回归（下）

310

31分39秒

I_理论/025_尚硅谷_机器学习模型和算法_决策树

440

10分7秒

I_理论/026_尚硅谷_机器学习模型和算法_K均值聚类

370

38分23秒

I_理论/027_尚硅谷_机器学习模型和算法_K均值聚类代码实现（上）

340

19分12秒

I_理论/028_尚硅谷_机器学习模型和算法_K均值聚类代码实现（下）

410

27分27秒

I_理论/029_尚硅谷_推荐系统_推荐系统算法详解（一）

420

28分53秒

I_理论/030_尚硅谷_推荐系统_推荐系统算法详解（二）

380

20分51秒

I_理论/031_尚硅谷_推荐系统_推荐系统算法详解（三）

440

31分7秒

I_理论/032_尚硅谷_推荐系统_TF-IDF算法代码示例

350

25分38秒

I_理论/033_尚硅谷_推荐系统_推荐系统算法详解（四）

380

27分30秒

I_理论/034_尚硅谷_推荐系统_推荐系统算法详解（五）

390

29分46秒

I_理论/035_尚硅谷_推荐系统_LFM梯度下降算法代码实现（上）

390

15分38秒

I_理论/036_尚硅谷_推荐系统_LFM梯度下降算法代码实现（下）

400

I_理论/005_尚硅谷_机器学习入门_数学基础（下）

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐