个人原创,一字一字敲的。
判断一个分类模型好坏的标准至关重要,问题是采用何种判断方法。本文浅谈一下模型评估方法的重要性,希望对初学者有一定帮助。
表面上看这是一个简单的问题,如果分类的准确率
越高,就断言分类模型越好。
据此评价方法,对于二分类问题,评价分类算法准确率的计算公式为:
其中,P 全称 Positive; N 全称 Negative; T 全称 True, 表示预测正确;F 全称 False, 表示预测错误。
如果正负样本个数较为均衡,使用以上评价公式是没有问题的。
实际中,我们要分类的问题大都满足正负样本个数均衡吗?
如果一下能举出很多反例,大概率就可以说正负样本不均衡的情况还是很多。银行卡信贷欺诈判断、交通违规判断、考试作弊判断、垃圾邮件检测、涉黄电影判断、恶性肿瘤检测...
并且下意识告诉我们,这些分类任务的数据集中正负样本个数往往是不均衡的,欺诈的交易总归占据少数,交通违规、考试作弊大概率也如此...
如果正负样本个数比例真是这样不均衡,使用以上公式评价问题就出现了。比如 100 个肿瘤检测报告中,只有 1 个是正类别(确定为肿瘤),对于这类数据集,我们只要写一行代码,预测所有都为负类别(即确定不是肿瘤),则:
你看,我们什么都没做,仅靠投机取巧,模型预测的准确率就达到 99%
,这太匪夷所思!
显然,仅仅使用准确率评价模型好坏,失败了。原因在于正负样本个数的不均衡,导致评价出现问题。
所以,需要设计出更加科学健全的评价指标。于是就有了 精确率+召回率
的评价体系。
其中,精确率
的计算公式为:
公式意义:被预测为正类别的样本中,确实为正类别的比率。
召回率
的计算公式为:
公式意义:在所有正类别样本中,能够正确的识别为正类别的比率。
按照此评价体系,如果还是纯碎靠猜测,即预测 100 个肿瘤全为负类别,则:
这种极端情况,我们没有预测出正样本,所以精确率公式失去意义。下面考察召回率:
等于 0,所以判定纯碎靠猜是不可取的,所以精确率+召回率
的评价体系更优于仅凭准确率的方法。
希望此篇文章能帮助大家通俗易懂的理解三个概念:准确率
、精确率
、召回率
,以及各自存在的价值。
本文分享自 程序员郭震zhenguo 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!