文章/答案/技术大牛

发布

首页视频I_理论/008_尚硅谷_机器学习入门_监督学习（中）

I_理论/008_尚硅谷_机器学习入门_监督学习（中）

2022-12-022022-12-02 16:02:22播放42

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据技术之机器学习和推荐系统/4.视频/I_理论/008_尚硅谷_机器学习入门_监督学习（中）.wmv

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，接下来我们重点还是给大家介绍一些评估策略和这个具体模型求解算法里面的一些概念，呃，前面我们讲到三要素模型，策略算法，那模型这个不用说了，我们肯定有各种各样的机器学习模型，对不对？呃，这个呃就就光从回归来讲，就是线性回归，多样式回归，领回归，套索回归，对吧？这些我们到后面再给大家详细介绍机学习模型，那这里边我们先给大家讲一下，你怎么评价这个模型到底好不好呢？这是不是就是我们所说的评估的策略啊啊，所以这里边我们给大家分成两两部来讲啊，一部分是评估，另外一部分是模型的选择。首先我们看一下提出两个概念，训练集和测试级，这是什么概念呢？大家会想到我们把输数据输入到模型里边，就可以训练出来这样的一个对应的模型，那然后我们如果想要去评估它的话，大家直观的一个一个想法怎么去评。
01:10
是不是想到本身我们的那个数据里面不是有X有Y吗？那个Y是不是就是对应的结果，就是我们最后的答案啊，那我把你那个Y拿过来再去跟你，呃，就是我们这里训练完了之后，是不是就可以再去带回到模型里边去算一下它对应的那个预测值啊，跟我们之前的那个Y是不是可以有一个误差的一个判定啊，这个误差的大小是不是就可以作为评价模型好坏的一个标准啊。诶，所以大家可以想到这个东西是不是就跟我们之前讲到那个，呃，推荐系统对吧，评分预测评分怎么样去考察它的好坏，评分的指标RMSE是不是就是这个思路，那我们现在同样也用到的是这个思路。
02:00
好，这里边我们想要做的是什么呢？想要做的是我们要把这个一开始的训练和最后的评估分开。大家看到这个做法是什么，我们就会把原始的数据分成两部分，一部分专门用来训练模型，我们把这部分数据叫做训练集，然后另外一部分数据专门用来测试模型的好坏，我们把这部分叫做测试机。哎，那么大家会想到为什么要做这样的一个划分呢？大家是不是能够想到我们的训练集，如果说我们拿着训练级训练出来的这个模型，然后再回到训练集里面去做测试的话，这相当于什么啊，这相当于你学完了之后，再把你已经做过的那些题原封不动的再给你做一遍，对不对，那你肯定这个成绩很好啊，那所以这个是不是就没有什么意义啊，所以我们是不是一定检测学习效果好坏，是不是一定要单独的出一份试卷，让他去评判一下你到底学的怎么样，诶，所以这其实根据我们日常经验也可以推断的出来，这就相当于我们是不是在考试之前应该先要做各种各样的模拟题啊，对吧？啊，五年高考三年模拟，那这里边我们做的时候都是有答案的，你做的时候，这是训练的一个过程，对不对，但是你训练的好坏是不是不能。
03:42
再让你重新做模拟题啊，要这样的话，大家每个人都考清华北大对不对，那我们最后我们做测试还得有一个测试题，那是不是单独出一份试卷啊，当然这个试卷是幼儿园的测试，对吧？啊，所以大家会想到，尽管我们这里边已经有了这样的一些数据，但是我们一定要把它划分开训练级和测试集，这就是我们的一个基本的想法。好，有了这个概念之后，接下来我们可以继续讲下一个概念了，叫做损失函数，那我们已经知道我们划分了数据集了，对吧？接下来是不是就就是要测试的时候，就要看它到底这个误差有多大对不对，那误差有多大，这是不是就涉及到一个计算方法啊？
04:29
你怎么算这个误差对不对？诶，这个误差我们就把它叫做损失函数，先给出定义，损失函数用来衡量模型预测误差的大小，那么大家可能可能会想到啊，损失函数为什么叫做函数呢？也就是说它应该是对应的一个自变量的函数，对吧？那这个函数应该是谁的自变，谁的函数呢？谁是自变量呢？
05:02
大家会想到我们在定义这个损失函数的时候，我们是不是应该对应的有一个模型F啊，有一个模型F，我们是不是应该对应一组输入X，有它对应的真实的那个Y啊，然后我们把X带入到模型里边，是不是可以得到一个FX，这就是它的预测值啊，那么FX和Y本身是不是有一个误差，所以这两个做一个我们直观的想法，是不是可以做一个减法对吧？做一个减法或者做一些别的复杂的运算，得到的这个值是不是就相当于是它的一个偏差的程度啊，误差的程度对吧？那么这个程度大家会想到跟什么有关系？这里面能够想到的是不是跟X有关对吧？啊，跟模型有关对不对，然后跟X输入的X有关，跟Y有关对不对，对于我们一个问题而言，我们输入的X和Y能不能变。
06:08
我们训练的过程当中，或者说测试的过程当中，是不是XY就是一组数啊，这是我们输入的，相当于成了常量了，对不对，这是不能变的，对吧？训练的过程当中，这是已经知道的一些东西，那我们在这个过程当中什么会变影响到这个损失函数变化呢？是不是模型会变会影响到这个损函数大小变化，哎，所以就我们就是要衡量到底哪个模型好嘛，你这里模型选择不同，对应的损失函数有大有小，我就可以判断哪个模型好了。那大家就可以想到这个损失函数到底应该是谁的函数，对，是模型的函数，那模型里边有谁是未知数呢？模型里边是不是对，大家看到这个例子里边对吧？模型里边是不是这个A和B是未知数啊，相反XY是不是我们把那些点都带进去就就都已经已知了呀？诶，所以我们的模型里边的未知量其实是参数对吧？所以损失函数的损失函数它是一个函数，它是谁的函数呢？是模型里边系数的函数，这个大家要注意一点，好，那最后就是你既然是要根据这个损失函数大小去选取模型嘛，那损失函数是大了好还是小了好呢？哎，当然了，损失嘛，损失越小越好，对不对？表示它的误差越小。
07:47
好，接下来我们看一些常见的损失函数，首先零一损失函数，大家看这是什么意思，大家看这个LYFX，这个是我前面我们损失函数的那个表达式对吧？那个用这个来表示这个损失函数，后面它的这个具体的表达式是什么呢？
08:05
它就取两个值，要不零，要不一，那大家看一下什么时候取零，什么时候取一对，如果你的预测值和真实值相等，误差给零，损失给零，没有误差对不对，如果不相等，只要不等，直接给一，所以大家看这是一个什么样的损失啊，这就是一个必须要精确对不对啊，你就是没没别的商量啊，你必须要一模一样，一模一样算你误差是零，如果只要有有一点点偏差，只要不一样，不好意思，你的误差就是一，大家想这个这个损失函数好不好啊，因为大家会想到你即使有偏差，就像我们之前那个评分一样，对吧，评分有偏差，那你偏差是0.1，还是偏差是一，这个差别明显还是有的，对不对，我这个模型误差可能偏差预测只有0.1，那其实这个模型还不错，另外一个模型它偏差都是。
09:05
低了，那那这个明显就要差一点，你如果用这样一个损失函数，是不是他们的损失算出来那个偏差值都一样啊，这显然就不好啊，所以大家就会想到，那我们更常见的是不是不应该直接简单粗糙粗暴的定义零、一两个值，是不是应该用Y和FX的差值去做一个处理啊，啊，这其实就是我们前面已经提到的啊，比方说这里最常见的叫做平方损失函数什么呢？其实就是每一个FFFX预测值和Y去做一个求差，然后去求一个平方对不对？那大家可以想到我为什么要做平方啊，直接减不可以吗？对，因为有正负，大家会想到每一个XY都会有偏差，我们最后想要求总偏差的时候，是不是应该把所有的偏差加起来啊，你要有正有负，那正一负一两个偏差其实都挺大，最后反而。
10:05
总偏差成零了，这显然不合理对不对？哎，所以我们要要求证，那大家自然就想到，你既然求证可以用平方，还可以用什么？对，当然就还可以用绝对值对不对，对应就有绝对损失函数，那另外还可以做什么呢？可以做对数损失函数啊，这里可能用的不太常见，但是大家也可以看一下，就是可以做什么计算呢？用它的这个条件概率，大家看对吧，这是一个条件概率，然后求一个对数啊，所以用这个来作为损失函数，那这代表什么呢？如果X发生的时候，Y发生的概率越大，对应的这个值就会大家想到这个log，这个值里面的值越大，Log本身，呃，默认的这个底应该是就常用对数或者自然对数对不对？它是不是应该是大于零的这个单调递增的曲线啊，那么这样一个值，它也就会当单调递增再加一个负号，是不是单调递减了？哎，所以如果这个概率越大，是不是损失就越小啊？哎，这个是不是也也非常有道理啊，好，这是一个对数损失函数。
11:21
好，讲完了损失函数，这里又提出一个概念啊，就是一堆概念，经验风险，什么叫经验风险呢？啊，我们直接来看这个数学表达式吧，经验风险就是啊，大家看啊，是关于训练级的平均损失，也就是说这里是不是就是把我们前面的损失函数给加进来定义了呀，因为前面损失函数是不是针对每一个点定义出来的，我们没有说针对整个模型你怎么算对吧？那大家其实已经想到了，我每一个点如果用平方损失函数是每一个点去减掉求平方的话，那整个模型是不是应该全部加起来啊，全部加起来可能跟它的那个点数，你本身样本点数有关系，那我是不是应该求一个平均值啊？哎，所以这是不是就是简单的一个想法，所以大家看啊，这里定义的经验风险就是损失函数，所有点的损失函数全算一遍。
12:21
然后加起来除以N，是不是求个平均数啊，哎，所以注意这里边所有点是哪里的点呢？训练数据集对吧？是从训练数据集里边拿到的所有点去算这个值，所以大家会想到这个是不是就是我们在训练过程当中得到的一个风险啊，最后你算出来训练完了之后它到底有多少偏差，是不是就这个值啊？哎，这是这个值，好，接下来我们再看一个概念啊，就是说那我们的目标是什么呢？哎，其实我们的目标是不是就是经验这个风险应该最小化啊，对吧？我们整个模型求取的时候，把所有训练数据带进去，是不是就是想让它的损失最小啊？哎，那我们是不是就是给他求一个最小值就完事啊？所以这就是一个模型策略，叫做经验风险最小化DRM，大家会想到它有什么问题吗？
13:27
他有一个问题，就是说当样本足够大的时候，也就是说我们这里面XY足够多的时候，他的学习效果还是不错的，因为是不是经验比较足啊，如果说这里的样本比较小的时候，他的经验就会有一些问题，那会出现什么问题呢？呃，这里边就会再给大家讲一个概念啊。训练误差和测试误差，那大家会想到前边我们求这个经验风险的时候，它应该是训练误差还是测试误差，它基于的是训练集，对不对？因为我们训练模型的时候，只有训练级的数据，我们也只能把训练级数据带进去算，对吧？所以算出来的一定是一个训练误差，那么这样一个，首先我们把这个定义给出来啊，训练误差关于训练级的平均损失，那这个定义是不是跟前面的经验风险一样啊，对吧？经验风险是不是就是训练误差？那么大家想一想，我们真实来看的话，训练误差重要吗？相对来说应该也还是有用的，因为我们训练模型的时候必须要用这个东西，对吧？对，因为你没有这个东西，你怎么用训练数据去训练呢？但是如果最后我们想考察这个模型到底好不好预测准不准，看你这个学习效果。你到底。
14:57
能能考高分，你是不是还是应该放到测试题里边去看啊？哎，所以这里大家就注意了，可以用它来判断我们这个问题是否容易学习，但是本质上对于最后考量学习效果的时候其实并不重要，那什么重要呢？当然就是测试误差对不对？就是你再把这个模型放到我们测试集上去算一下平均损失，大家看这个表达是完全一样对不对？只不过这里边的XY选择是不是就应该放到测试题上去选了。
15:32
测试集里边算出来的这个平均损失，我们在训练集里边去训练，然后最后再放到测试集里边算这个平均损失，这个平均损失测试误差才代表了我们最后的那个预测能力，对不对，这个误差差小是不是才代表它真正预测的好啊，哎，所以这个能力有时候有位叫做泛化能力。好，这个只是泛泛的讲了讲这么多的概念，大家会想到这到底代表了一个什么问题啊，又是训练误差，又是测试误差的。好，我们再来给大家一个例子啊，这就又提了一个概念出来了，我们看这个例子啊，假如说我们这里有两个树练，呃，树叶的样本，这是训训练样本，对不对？只有两个，大家从里面看的话，假如让你去提炼树叶的规律，你能提炼出什么样的规律呢？对，有些同学可能就看到了，诶，绿色的对吧？然后上面尖尖的，下面圆圆的，底下还带个饼，对不对？诶，这，这就是树叶的一个规则，呃，规律对吧？具体看的话，可能还会发现里边应该有这个脉络，对不对，叶脉对吧？啊，这个条条纹的这个脉络，然后再看的细一点，是不是这个训练样本里面它有锯齿啊，对吧，我们就把这个都当都可以当做。
16:55
训练样本里面的特征提取出来对不对，提取出来的话，是不是就作为我们模型的规则就学习出来了，那我们判断树叶新来的一个样本是不是树叶的时候，就可以根据学习出来的这个规则来判断，对吧？那大家这里就会想到了，你到底学习出来什么样的规则，是不是就会影响到我们最后预测的准确度啊，假如说。
17:20
假如说我这里边训练出来的规则，我训练出来是一个什么效果呢？我训练出来，呃，这个规则是我认为所有的树叶，什么样的东西是树叶呢？就是必须得是绿色的，有锯齿的，呃，里面有条纹的，还得带一个底的，上面尖，下面圆圆的这样的一个东西，它是树叶。那大大家根据这样的一个规则，一个模型，大家判断一下新来的两个样本，它们是树叶吗？是不是两个灯不是树叶啊，但是大家其实直观肉眼看第一个其实是不是它应该是树叶啊，所以大家看这个有一个什么问题啊，是不是我们刚才把那个锯齿这个特征，本来不应该是树叶的特征也学习进来了呀，所以这个过程其实就是学的有点过了，对不对？哎，所以学的过的这种过程就叫做过拟和。
18:26
那么这种是不是我们。学的时候可能学的很好，但是学完了之后是不是预测效果并不好啊，哎，大家可以看到，当然如果说我们的这个模型学出来是什么状况呢？我们的模型假如说只是认为，哎，只要是绿色的，它可以就是树，就是就是树叶，那大就会想到它是不是会认为这两个都是树叶啊，那是不是这个效果也不好。那这棵树是不是就没有排除在外，所以这个过程代表什么呢？它是不是学习的东西太少了呀，没有把树叶本质的特征完全学习到对不对？所以它学习的有点欠缺，这个过程我们把它叫做欠拟合对吧？啊，所以这是我们要避免的两个过程啊，那当然了，这个呃，对于欠拟盒而言，本质是不是就是对特征学习的不够啊啊，比方说这里再举一个例子啊，分辨一只猫，你如果只给这个特征学习的模型，给的特征是四条腿，两只眼，有尾巴大，大家看一下这三个你你能分辨出哪个是猫，哪个不是吗？或者说按照这个模型是不是全是猫啊？哎，所以这就是表示我们学习的不够，那这个过程显然是不好的，我们的模型应该去加强，对吧？学的不够，那另外一个问题是什么呢？对，大家会想到就是过油不。
19:53
急，对吧，就是如果我们把那个训练数据学的太彻底，学的太好太全面的话，有时候就会把噪声数据也学到了，这是为什么呢？就是因为有时候我们的样本是不是不太全啊，我那里只有两片树叶，它刚好都是锯齿的，我是不是就认为这个锯齿的也是一个它的特征啊，所以大家会想到在样本不够大的时候，这种情况下是不是很容易，哎，就会把这个噪声数据学习到，学到之后是不是在我们的训练数据再去测的时候，训练误差是不是还挺小啊，都对，对吧，但是测试误差是不是就会比较大，哎，所以这其实是很大的一个问题，这个问题叫做过拟核啊，当然对应的这个例子，大家会想到，你假如分辨这只猫的话，你给这么多要求，对吧，能捕老鼠，能吃鱼，最后刚好给出来的训练样本。
20:53
啊，十只猫全是白猫，你可能把这个也学到了，你就会认为只有白色的才叫猫，对不对，那来一只黑猫是不是你就认为它不是猫啊，啊，所以这就是很重要的一个问题，机器学习里面这是很大的一个问题啊，过拟和，那么大家可能就会想到，呃呃，当然啊，我们再给给大家做一个例子，大家更明确的就具体到这个算法里面会有什么样的问题，大家看一眼这这个例子啊，十个样本点用圈来表示，大家看到它本身的这个分布是不是就是类似于这个有点像三角三角函数曲线对吧？它其实就是类似于一个三次曲线的一个拟合出来的，它就是根据三次曲线做了一个拟合啊，大家可以看到啊，这是它本来的这个数据的样子，然后如果我们现在想要用一个多项式对这个点做一个拟合，那是不是就是考虑这些点它的一个函数关系啊，这是不是就是做一个拟合。
21:53
哎，那就是我们的曲线是不是就是一个函数关系啊，就是用一个曲线来做一个拟合，如果这个M取一的话，大家看啊，下面这个表达式M取一是不是MX的最高次就是一啊，大家会想到这是不是就只有W0加W1X，这是不是一条直线了？
22:13
你合出来就是这个效果，这拟合的好啊，是不是显然不好啊，然后大家再看的话，如果M等于三，诶是不是这个效果就很好，因为本身这个数据就就是根据这个就是三项的多项式去拟合出来的，对吧？所以大家看如果要是取M等于三的话，我们的这个模型效果就非常的好，然后另外我们是不是还可以取更高的次方啊，比如说我们取到M等于九，有九次方，大家看你合出来是一什么曲线，上窜下跳一个曲线对不对，大家看他表现好吗？表现的非趁可以说为什么呢？因为每个点是不是都在这条曲线上啊，完整的拟合了对不对？但是大家会想到，按照我们直观的看这些点的结构的话，你是用这么奇怪的一个曲线去拟合好呢，还是用这个曲线尽管不完全在点上，但是大概差不多这样比较好呢？对，是不是显然是前面这个拟合的更好啊，所以大家看这就是过犹不及，前面这个千拟合，后边这个是不是就过拟合了呀啊，所以大家会看到过拟合的过程当中，它会发生一个什么状态呢？随着模型的复杂度越来越高，也就是说我们学习的越来越彻底。
23:38
对吧？就会出现这样的一个情况，我们的训练误差是不是会一直减小，以至于趋近于零啊？你假如模型的复杂度无限的大，那大家想到无限的大，其实就可以把所有样本点全涵盖进去了，对不对？你甚至可以说来什么样的样本点，我就告诉你它的结果是什么，这是不是也是一个模型啊？
24:00
那最后的训练误差绝对是零啊，但是它的测试误差不这么表现，对吧？它会先减小，减小到一定程度之后，是不是就会增大了，就像刚才我们这个例子，是不是从一增大到三的时候，它的误差是不是越来越小啊，再增大是不是训练误差可能越来越小，最后变成零了，但是测试误差是不是会增大啊，所以就有了这样的一个。训练误差和测试误差曲线的一个分离，所以所以我们要避免这样的过拟合的过程，那怎么去避免呢？呃，这就是下一个问题了，就是我们需要做一个正则化简单的一个想法，其实就是说我们既然模型的复杂度越高。有可能会越糟糕，对吧，那是不是我们应该是复杂度差不多就可以了，对不对？我是不是应该把那个模型复杂度无限增大的那个程度，应该对它做一个惩罚，所以一个基本的想法就是我可以在原先的经验风险的基础上加一个对模型复杂度的乘法。
25:19
那这一项就叫做正则化项，或者叫惩罚项，所以大家会想到它的做法是什么呢？其实就是说基于它的复杂度做一个单调递增的一一个一一项，那么这一项模型越复杂，它的值就越大，那么添加到我们的经验风险里边对应的那个损失函数是不是就会越越越大，对不对？是不是就代表它的模型越差呀？但是不是能想到这样的一个过程啊，如果想不到的话，我们把这个公式列出来啊，公式就是这样，前面这一部分是我的。前面的经验风险啊，对吧，当然这是我的经验风险最小化，取最小值对不对，后边还加了一项，加了什么。
26:08
加了一个拉姆达倍的JFJF就代表正则画像，拉姆达是它的一个调节关系的系数，对不对？这个叫正则化系数，那么然后大家就会想到，那里边的这个GF，这个正则画像到底取什么呢？哎，它就可以取不同的形式用来表达我们整个模型的复杂程度，比如说可以选择像前面我们是不是可以选择哎，多项式它的那个次幂的那个维度啊，另外也可以选择比方说特征向量，假如我们前面要分解整个的这一个特征的话，分解出来的特征越多是不是就越复杂啊，哎，所以我们想要学习的这个特征向量维度也可以作为它的一个正则画像的一个，呃，这个基本项，那么取它的什么呢？它的L1范数或者L2范数，这个大家知道吗？L1范数和L2范数，L1范数简单的说就是。
27:09
绝对值求和对吧？然后L2范数是什么呢？就是平方求和开根号，哎，所以简单看这个L2范数对于一个向量而言，是不是就是模长啊，大家想我把这个向量的模长作为一个正则画像，是不是这个向量越大，维度越多，它就会受到的惩罚就越大呀，这就是一个正则化的过程，所以这个过程就叫做结构风险最小，呃，结构风险最小化就是在风。在我们前面提到的这个经验风险最小化的基础上，再加一个正则画像作为我们的结构，风险最小化作为我们的评价策略。好，呃，那当然这里再提一句，就是这个符合一个什么规则，就是叫做奥卡姆剃刀的一个原则，大家可能也听说过，这是什么原则呢？他的思想就是说如无必要，勿增实体，啥意思啊？
28:08
就是说我们的模型，如果要是说有很多可以选择的模型的话，能够解决问题的那个最简单的模型，是不是就是应该我们去去选择的那个模型啊，如果没有必要的话，是不是就没有必要用更复杂的模型啊，哎，这就是我们的一个基本的想法，所以这个是一致的啊，我们不要一味的选择更复杂的模型，让那个训练误差越来越小，因为我们训练模型的时候，是不是只有训练数据啊，我们只能算训练误差对吧？所以我们就是不能一味的去追求这个东西，所以我们后面要加一个正则画像，把它去做一个成分。好，呃，已经下课了，我们是把这一部分讲完呢，还是大家讲完吧，是吗？呃，行，那可能就要占用大家几分钟时间了，呃，大家稍微忍耐一下是吧？好，我们后面再讲一个概念，叫做交叉验证，呃，交叉验证这一部分大家会看到啊，它其实主要是做什么事情呢？
29:13
其实就是要说前面我们不是要求。训练误差小不算好，我们要测试误差小嘛，啊这一部分其实很简单，就是那你怎么样去选取训练集和测试集呢，对不对？呃，我们前面是不是讲到要划分训练集测试集啊，所以交叉验证主要是用来去选取训练集测试集的，那这里边还提出一个概念，就是说假如说我们样本足够充足的话，最好的情况是你再多切分一下，就是切分成三个级，什么呢？训练级，验证级，测试级。那到时候怎么做啊，训练级用来训练模型，那那个上面是不是就只有训练误差对吧？先训练模型，然后验证级做模型选择，就是在做模型选择的时候，是不是可以带入我们的这个正则画像对吧？做那个呃，经验风险最小化，然后去放在验证级里边去做测试，那最后我们的测试级用来做什么呢？做学习方法的评估，就是说我们最后算法的评估测试集来评啊，那当然这是最理想的一种状态，一般情况我们没有那么多的数据，那我们就直接就划分两个训练级，测试级也就完了，对吧？那如果说数据还不够充分的话，那怎么去做这样的呃交叉验证呢？做这样的一个重复利用数据呢？
30:38
我们如果数据足够多的话，你随便划分，如果不够多的话，我们其实能够想到的应该就得把数据合理利用了，对吧？这里边我们提到的这个方法就是交叉验证，交叉验证又分成几种，第一种最好理解，简单交叉验证，简单交验简单交叉验证呃，怎么个划分法呢？随机划分，原始数据集直接随机分成两部分，比方说一般取的这个比例就是70%训练集，或者80%训练级，然后剩下的30%或者20%做测试计，这就只要你选的随机，这是不是就完整的划分开了啊，这就是这样的一种方式，那我们训练在训练集上训练模型，对吧？那最后这个测试的时候，我们还是要放到测试集上去评价这个模型的。
31:28
那除了简单交叉验证之外，还有一个叫S折交叉验证，或者有些地方叫K层交叉验证，或者K重交叉验证，其实是一样的啊，什么意思？就是说数据比较少，我们不把它直接切分成两块，而是把它切分成S个互不相同，互不相交的这个子集，相同大小的子集，然后我们做什么操作，其中一个做测试，然后剩下的S减一个都做训练集，然后这样来了一轮之后再怎么办呢？哎，重新划分啊，就是重新选取我们的训练集和测试集，也就是说再用另外的一个座位测试集，别的座位训练器再去来一轮，对不对，这样是不是就有S种不同的可能啊？
32:14
对吧？啊，所以这样来回验证，这就叫做S折交叉验证，最后还有一个叫留一交叉验证，留一的话就是不管你前面怎么取，最后只留下一部分数据，或者说一个数据作为这个测试集就可以了，那就是数据量非常非常小的时候才会用到这种情况，对吧？啊，这是交叉验证的这一部分内容，那我们把这部分已经讲完的话，其实大家就已经对整个的模型评估，整个机器学习的策略有一定的理解吧。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之机器学习和推荐系统

（38/66）

7分15秒

000_尚硅谷_机器学习和推荐系统_课程简介

600

30分47秒

II_电影推荐项目/037_尚硅谷_电影推荐系统_项目系统设计（上）

520

13分56秒

II_电影推荐项目/038_尚硅谷_电影推荐系统_项目系统设计（中）

510

32分14秒

II_电影推荐项目/039_尚硅谷_电影推荐系统_项目系统设计（下）

410

24分14秒

II_电影推荐项目/040_尚硅谷_电影推荐系统_项目框架搭建

390

16分27秒

II_电影推荐项目/041_尚硅谷_电影推荐系统_数据加载模块（一）

410

21分44秒

II_电影推荐项目/042_尚硅谷_电影推荐系统_数据加载模块（二）

440

17分11秒

II_电影推荐项目/043_尚硅谷_电影推荐系统_数据加载模块（三）

390

19分19秒

II_电影推荐项目/044_尚硅谷_电影推荐系统_数据加载模块（四）

510

23分47秒

II_电影推荐项目/045_尚硅谷_电影推荐系统_数据加载模块（五）

500

30分15秒

II_电影推荐项目/046_尚硅谷_电影推荐系统_统计推荐模块（上）

450

24分11秒

II_电影推荐项目/047_尚硅谷_电影推荐系统_统计推荐模块（中）

400

26分26秒

II_电影推荐项目/048_尚硅谷_电影推荐系统_统计推荐模块（下）

450

34分28秒

II_电影推荐项目/049_尚硅谷_电影推荐系统_基于LFM的离线推荐模块（上）

320

17分12秒

II_电影推荐项目/050_尚硅谷_电影推荐系统_基于LFM的离线推荐模块（中）

420

29分12秒

II_电影推荐项目/051_尚硅谷_电影推荐系统_基于LFM的离线推荐模块（下）

390

25分7秒

II_电影推荐项目/052_尚硅谷_电影推荐系统_ALS模型评估和参数选取（上）

370

17分4秒

II_电影推荐项目/053_尚硅谷_电影推荐系统_ALS模型评估和参数选取（下）

390

33分18秒

II_电影推荐项目/054_尚硅谷_电影推荐系统_实时推荐模块（一）

490

32分6秒

II_电影推荐项目/055_尚硅谷_电影推荐系统_实时推荐模块（二）

380

26分11秒

II_电影推荐项目/056_尚硅谷_电影推荐系统_实时推荐模块（三）

390

31分31秒

II_电影推荐项目/057_尚硅谷_电影推荐系统_实时推荐模块（四）

420

23分18秒

II_电影推荐项目/058_尚硅谷_电影推荐系统_实时推荐模块（五）

340

13分30秒

II_电影推荐项目/059_尚硅谷_电影推荐系统_实时推荐模块测试

380

22分16秒

II_电影推荐项目/060_尚硅谷_电影推荐系统_基于内容推荐模块（一）

410

23分45秒

II_电影推荐项目/061_尚硅谷_电影推荐系统_基于内容推荐模块（二）

390

15分41秒

II_电影推荐项目/062_尚硅谷_电影推荐系统_基于内容推荐模块（三）

400

19分17秒

II_电影推荐项目/063_尚硅谷_电影推荐系统_基于内容推荐模块（四）

320

26分53秒

II_电影推荐项目/064_尚硅谷_电影推荐系统_实时系统联调测试（上）

400

24分53秒

II_电影推荐项目/065_尚硅谷_电影推荐系统_实时系统联调测试（下）

410

38分3秒

I_理论/001_尚硅谷_推荐系统简介_概述

420

31分3秒

I_理论/002_尚硅谷_推荐系统简介_推荐系统算法简介

470

29分28秒

I_理论/003_尚硅谷_推荐系统简介_推荐系统评测

410

35分4秒

I_理论/004_尚硅谷_机器学习入门_数学基础（上）

390

36分23秒

I_理论/005_尚硅谷_机器学习入门_数学基础（下）

390

23分11秒

I_理论/006_尚硅谷_机器学习入门_机器学习概述

350

26分18秒

I_理论/007_尚硅谷_机器学习入门_监督学习（上）

400

32分45秒

I_理论/008_尚硅谷_机器学习入门_监督学习（中）

420

29分40秒

I_理论/009_尚硅谷_机器学习入门_监督学习（下）

400

32分51秒

I_理论/010_尚硅谷_机器学习模型和算法_python简介

430

31分38秒

I_理论/011_尚硅谷_机器学习模型和算法_python基础语法（上）

370

22分48秒

I_理论/012_尚硅谷_机器学习模型和算法_python基础语法（下）

370

27分48秒

I_理论/013_尚硅谷_机器学习模型和算法_线性回归（上）

460

24分35秒

I_理论/014_尚硅谷_机器学习模型和算法_线性回归最小二乘代码实现（上）

380

15分21秒

I_理论/015_尚硅谷_机器学习模型和算法_线性回归最小二乘代码实现（下）

320

23分25秒

I_理论/016_尚硅谷_机器学习模型和算法_线性回归（下）

450

25分38秒

I_理论/017_尚硅谷_机器学习模型和算法_线性回归梯度下降代码实现

450

8分14秒

I_理论/018_尚硅谷_机器学习模型和算法_线性回归调用sklearn库代码实现

410

15分10秒

I_理论/019_尚硅谷_机器学习模型和算法_K近邻

370

31分11秒

I_理论/020_尚硅谷_机器学习模型和算法_K近邻代码实现（上）

410

29分17秒

I_理论/021_尚硅谷_机器学习模型和算法_K近邻代码实现（中）

360

33分34秒

I_理论/022_尚硅谷_机器学习模型和算法_K近邻代码实现（下）

340

22分40秒

I_理论/023_尚硅谷_机器学习模型和算法_逻辑回归（上）

360

20分31秒

I_理论/024_尚硅谷_机器学习模型和算法_逻辑回归（下）

310

31分39秒

I_理论/025_尚硅谷_机器学习模型和算法_决策树

440

10分7秒

I_理论/026_尚硅谷_机器学习模型和算法_K均值聚类

370

38分23秒

I_理论/027_尚硅谷_机器学习模型和算法_K均值聚类代码实现（上）

340

19分12秒

I_理论/028_尚硅谷_机器学习模型和算法_K均值聚类代码实现（下）

410

27分27秒

I_理论/029_尚硅谷_推荐系统_推荐系统算法详解（一）

420

28分53秒

I_理论/030_尚硅谷_推荐系统_推荐系统算法详解（二）

380

20分51秒

I_理论/031_尚硅谷_推荐系统_推荐系统算法详解（三）

440

31分7秒

I_理论/032_尚硅谷_推荐系统_TF-IDF算法代码示例

350

25分38秒

I_理论/033_尚硅谷_推荐系统_推荐系统算法详解（四）

380

27分30秒

I_理论/034_尚硅谷_推荐系统_推荐系统算法详解（五）

390

29分46秒

I_理论/035_尚硅谷_推荐系统_LFM梯度下降算法代码实现（上）

390

15分38秒

I_理论/036_尚硅谷_推荐系统_LFM梯度下降算法代码实现（下）

400

I_理论/008_尚硅谷_机器学习入门_监督学习（中）

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐