00:02
5.3.3多分类指标前面我们已经深入讨论了二分类任务的评估,下面来看一下对多分类问题的评估指标。多分类问题的所有指标基本上都来自于二分类指标,但是要对所有类别进行平均。多分类的精度被定义为正确分类的样本所占的比例。同样,如果类别是不平衡的,精度并不是很好的评估度量。想象一个三分类问题,其中85%的数据点属于类别A10%属于类别B5%属于类别C。在这个数据集上,85%的精度说明了什么?一般来说,多分类结果比二分类结果更加难以解释。除了精度,常用的工具有混淆矩阵和分类报告。我们在上一节二分类的例子中都见过,下面我们将这两种详细的评估方法应用于对着数据集中十种不同的手写数字进行分类的任务。
03:20
模型的精度为95.3%,这表示我们已经做的相当好了。混淆矩阵我们我们提供了更多的细节。与二分类的情况相同,每一行对应于真实标签,每一列对应于预测标签。下面给出这个混淆矩阵对应的热图。
06:01
对于第一个类别,也就是数字零。它包含37个样本,所有这些样本都会化为类别零及类别里。没有假反利。我们之所以可以看出这一点,是因为混淆矩阵第一行中其他所有元素都为零。我们还可以看到,没有其他数字被物分类为类别零,这是因为混淆矩阵一一列中其他所有元素都为零,即类别零,没有假正例。但是有些数字与其他数字混在一起,比如数字二。注意到第三行。其中有三个被划分到数字三中,也就是第四列。还有一个数字三被划分到数字二。
07:00
第四行的第三列。一个数字八被划分到数字二中第九行的。第三列。利用classification report函数,我们可以计算每个类别的准确率、召回率和F分数。
08:01
不出所料,类别零的准确率和召回率都是完美的一,因为这个类别中没有混淆。另一方面,对于类别七。准确率为一。这是因为没有其他类别被物分类为七,而类别六。没有假反利。所以召回率等于一。我们还可以看到模型对类别八和类别三的表现特别不好。对于多分类问题中的不平衡的数据集,最常用的指标就是多分类版本的F分数。多分类F分数背后的想法是对每个类别计算一个二分类F分数,其中该类别是正类,其他所有类别组成反类。然后使用以下策略之一,对这些按类别F分数进行平均。
09:01
红平均马计算未加权的安倍比F分数。它对所有类别给出相同的函数,无论类别中的样本量的大小,加强VT的平均。以每个类别的支持作为权重来计算按类别F分数的平均值分类,报告中给出的就是这个值。V平均Michael计算所有类别中假正例、假反例和真正力的总数,然后利用这些,然后利用这些技术来计算准确率、照回率和F分数。如果你对每个样本等同看待,那么推荐使用微平均F1分数,如果你对每个类别等同看待,那么推荐使用红平均F分数。
10:58
5.3.4回归指标对回归问题可以像分类问题一样进行详细的评估,例如对目标值估计过高与目标值估计过低进行对比分析。但是对于我们见过的大多数应用来说,使用默认的R方分数就足够了。
11:18
他有所有回归器的score方法给出业务决策,有时是根据军方误差或平均绝对误差做出的。这可能会鼓励人们使用这些指标来调节模型。但是一般来说,我们认为R方是评估回归模型的更直观指标。5.3.5在模型选择中使用评估指标前面详细讨论了许多种评估方法,以及如何根据真实情况和具体模型来应用这些方法。但我们通常希望在使用gra或者CD或cross Val或进行模型选择时能够使用auc等指标。幸运的是,在论提供了一种非常简单的实现方法,就是SC参数。
12:04
它可以同时与,它可以同时用于graph search CD和cross v或你只需提供一个字符串用于描述想要使用的评估指标。举个例子,我们想用auc分数对接这次数据集中的九与其他数据集的任务。上。的SVM分类器进行评估。想要将分数从默认值精度修改为a uoc,可以提供ROOC下OCAUCS串作为spring参数的值。
13:34
嗯。
16:54
类似的,我们可以改变grab,设置CD中用于选择最佳参数的指标。
23:36
在使用精度时。选择的参数是。伽马等于0.0001,而使用AC时选择的参数是伽马等于0.01。在两种情况下交叉验证精度。
24:03
嗯。区别不大。测试及精度。区别也不是很大。但是使用a uoc找到的参数设置。对应的auc更高,甚至对应的精度也更高。利用a uoc找到了精度更高的模型,这可能是因为对于不平衡数据来说,精度并不是模型性能的良好度量。对于分类问题,SC参数最重要的取值包括accuracy默认值ROC向性AUCROC曲线下方的面积。
25:07
Average precision准确率召回去曲线下方的面积F1 f1micro f fe micro和f fe VT的这四个是二分类的F1分数,以及各种的加权变体。对于回归问题,最常用的取值包括二二把方分数。Me squared errorr均方误差和me absolute error平均绝对误差。你可以在文档中找到所有知识参数的完整列表,也可以查看max模块中定义的。字典。
26:40
5.4小结与展望本章讨论了交叉验证、网格搜索和评估指标等内容,他们是评估与改进机器学习算法的基础,本章介绍的工具以及第二、第三章介绍的算法。是每位机器学习从业者赖以生存的工具。
27:01
本章有两个特别的要点,这里需要重复一下。因为他们经常被新的从业人员所忽视。第一个要点与交叉验证有关。交叉验证或者使用测试机让我们可以评估一个机器学习模型未来的表现。但是,如果我们使用测试集或交叉验证来选择模型或选择模型的参数,那么我们就用完了测试数据和使用相同的数据来评估模型未来的表现将会得到过于乐观的估计。因此,我们需要将数据划分为训练数据、验证数据与测试数据。其中训练数据用于模型的构建,验证数据用于选择模型与参数,测试数据用于模型的评估。我们可以用交叉验证。来代替每一次简单的划分。最常用的形式正如前面所说是训练测试划分用于评估,然后对训练题使用交叉验证来选择模型与参数。第二个要点与用于模型选择与模型评估的评估指标或评分函数有关。
28:13
如何利用机器学习模型的预测结果做出商业决策,其理论有些超出本书的范围。但是机器学习任务的最终目标很少是构建一个高精度的模型,一定要确保你用于模型评估与选择的指标能够很好的替代模型的实际用户。在实际当中,分类问题很少会遇到平衡的类别,假真理和假反例也通常具有非常不同的后果,你一定要了解这些后果,并选择相应的评估指标。到目前为止,我们介绍的模型评估与选择技术都是数据科学家工具相中最为重要的工具。本章介绍的网格搜索与交叉验证只能应用于单个监督模型,但是我们前面看到许多模型都需要预处理。在某些应用中,比如第三章人脸识别的例子,提取数据的不同表示是很有用的。下一章我们将会介绍partline类,它允许我们。
29:19
在这些复杂的算法链上,使用网格搜索与交叉验证。
我来说两句