首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习学习笔记三

西瓜书:模型选择与评估

性能度量:衡量模型泛化能力的评价标准。对比不同模型的的能力时,使用不同的性能度量往往会导致不同的评判结果,意味着模型的“好坏”是相对的,好的模型不仅取决于算法和数据,而且取决于任务需求。

均方误差:回归任务最常用的性能度量,均方误差大的模型性能差,均方误差小的模型性能好。

分类性能度量:错误率和精度;查准率和查全率。

错误率与精度反应的是分类任务模型判断正确与否的能力,通常,错误率低精度高的模型性能好,错误率高精度低的模型性能差。当需要反应的不是判断正确与否的能力,而是正例、反例查出的准确率时,就不能用错误率和精度作为判断分类任务模型的性能度量,此时要引入查准率(P)、查全率(R)的概念。

查准率:真正例样本数与预测结果是正例的样本数的比值。

查全率:真正例样本数与真实情况是正例的样本数的比值。

二分类结果混淆矩阵

一般情况下,查准率高时,查全率偏低;查全率高时,查准率偏低。通常只在一些简单任务中,查准率和查全率都偏高。

P-R曲线:以查全率做横轴,查准率做纵轴作图得到

P-R曲线判断方法:

曲线没有交叉:外侧曲线的学习器性能优于内侧;

曲线有交叉

一、比较曲线下面积的大小。

二、比较两条曲线的平衡点,平衡点是“查准率=查全率”时的取值,在图中表示为曲线和对角线的交点。平衡点在外侧的曲线的学习器性能优于内侧。

三、F1度量和Fβ度量。F1是基于查准率与查全率的调和平均定义的,Fβ则是加权调和平均。F1度量的一般形式是Fβ。在不同的应用中,对查准率和查全率的重视程度不同,β>1时:查全率有更大影响;β=1时:影响相同,退化成F1度量;β

n个混淆矩阵的查准率和查全率综合考察:

“宏查准率”、“宏查全率”和“宏F1”:分别计算n个混淆矩阵的查准率和查全率,再计算平均值。

“微查准率”、“微查全率”和“微F1”:先将n个混淆矩阵的对应元素进行平均,再计算查准率、查全率和微F1。

ROC曲线:全称为“受试者工作特征”曲线,以真正例率为纵轴,以假正例率为横轴作图。

ROC曲线性能度量的方法与P-R图相似:

在曲线没有交叉时:外侧曲线的学习器性能优于内侧;

在曲线有交叉时:比较ROC面积,即AUC(ROC曲线下各部分的面积求和)。

代价敏感错误率与代价曲线

“非均等代价”:权衡不同类型错误所造成的不同损失。

二分类代价矩阵:其中表示将第i类样本预测为第j类样本的代价。

代价敏感错误率:

代价曲线:横轴是正例概率代价P(+)cost,纵轴是归一化代价。

绘制方法:在ROC曲线上取一个点(FPR,TPR),然后计算出FNR,在代价平面上绘制一条从(0,FPR)到(1,FNR)的线段;依次取遍ROC曲线上所有点并重复前步骤;所有线段的下界围成的面积就是学习器期望总体代价。如图

附ROC曲线和PR曲线的关系:

在ROC空间,ROC曲线越凸向左上方向效果越好。与ROC曲线左上凸不同的是,PR曲线是右上凸效果越好。ROC和PR曲线都被用于评估机器学习算法对一个给定数据集的分类性能,每个数据集都包含固定数目的正样本和负样本。而ROC曲线和PR曲线之间有着很深的关系。

定理1:对于一个给定的包含正负样本的数据集,ROC空间和PR空间存在一一对应的关系,也就是说,如果recall不等于0,二者包含完全一致的混淆矩阵。我们可以将ROC曲线转化为PR曲线,反之亦然。

定理2:对于一个给定数目的正负样本数据集,一条曲线在ROC空间中比另一条曲线有优势,当且仅当第一条曲线在PR空间中也比第二条曲线有优势。(这里的“一条曲线比其他曲线有优势”是指其他曲线的所有部分与这条曲线重合或在这条曲线之下。)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180709G07LWK00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券