西瓜书:模型选择与评估
性能度量:衡量模型泛化能力的评价标准。对比不同模型的的能力时,使用不同的性能度量往往会导致不同的评判结果,意味着模型的“好坏”是相对的,好的模型不仅取决于算法和数据,而且取决于任务需求。
均方误差:回归任务最常用的性能度量,均方误差大的模型性能差,均方误差小的模型性能好。
分类性能度量:错误率和精度;查准率和查全率。
错误率与精度反应的是分类任务模型判断正确与否的能力,通常,错误率低精度高的模型性能好,错误率高精度低的模型性能差。当需要反应的不是判断正确与否的能力,而是正例、反例查出的准确率时,就不能用错误率和精度作为判断分类任务模型的性能度量,此时要引入查准率(P)、查全率(R)的概念。
查准率:真正例样本数与预测结果是正例的样本数的比值。
查全率:真正例样本数与真实情况是正例的样本数的比值。
二分类结果混淆矩阵
一般情况下,查准率高时,查全率偏低;查全率高时,查准率偏低。通常只在一些简单任务中,查准率和查全率都偏高。
P-R曲线:以查全率做横轴,查准率做纵轴作图得到
P-R曲线判断方法:
曲线没有交叉:外侧曲线的学习器性能优于内侧;
曲线有交叉:
一、比较曲线下面积的大小。
二、比较两条曲线的平衡点,平衡点是“查准率=查全率”时的取值,在图中表示为曲线和对角线的交点。平衡点在外侧的曲线的学习器性能优于内侧。
三、F1度量和Fβ度量。F1是基于查准率与查全率的调和平均定义的,Fβ则是加权调和平均。F1度量的一般形式是Fβ。在不同的应用中,对查准率和查全率的重视程度不同,β>1时:查全率有更大影响;β=1时:影响相同,退化成F1度量;β
n个混淆矩阵的查准率和查全率综合考察:
“宏查准率”、“宏查全率”和“宏F1”:分别计算n个混淆矩阵的查准率和查全率,再计算平均值。
“微查准率”、“微查全率”和“微F1”:先将n个混淆矩阵的对应元素进行平均,再计算查准率、查全率和微F1。
ROC曲线:全称为“受试者工作特征”曲线,以真正例率为纵轴,以假正例率为横轴作图。
ROC曲线性能度量的方法与P-R图相似:
在曲线没有交叉时:外侧曲线的学习器性能优于内侧;
在曲线有交叉时:比较ROC面积,即AUC(ROC曲线下各部分的面积求和)。
代价敏感错误率与代价曲线
“非均等代价”:权衡不同类型错误所造成的不同损失。
二分类代价矩阵:其中表示将第i类样本预测为第j类样本的代价。
代价敏感错误率:
代价曲线:横轴是正例概率代价P(+)cost,纵轴是归一化代价。
绘制方法:在ROC曲线上取一个点(FPR,TPR),然后计算出FNR,在代价平面上绘制一条从(0,FPR)到(1,FNR)的线段;依次取遍ROC曲线上所有点并重复前步骤;所有线段的下界围成的面积就是学习器期望总体代价。如图
附ROC曲线和PR曲线的关系:
在ROC空间,ROC曲线越凸向左上方向效果越好。与ROC曲线左上凸不同的是,PR曲线是右上凸效果越好。ROC和PR曲线都被用于评估机器学习算法对一个给定数据集的分类性能,每个数据集都包含固定数目的正样本和负样本。而ROC曲线和PR曲线之间有着很深的关系。
定理1:对于一个给定的包含正负样本的数据集,ROC空间和PR空间存在一一对应的关系,也就是说,如果recall不等于0,二者包含完全一致的混淆矩阵。我们可以将ROC曲线转化为PR曲线,反之亦然。
定理2:对于一个给定数目的正负样本数据集,一条曲线在ROC空间中比另一条曲线有优势,当且仅当第一条曲线在PR空间中也比第二条曲线有优势。(这里的“一条曲线比其他曲线有优势”是指其他曲线的所有部分与这条曲线重合或在这条曲线之下。)
▼
领取专属 10元无门槛券
私享最新 技术干货