前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >仅靠猜测,模型的准确率就能到 99%,这太匪夷所思!

仅靠猜测,模型的准确率就能到 99%,这太匪夷所思!

作者头像
double
发布2020-05-08 16:02:58
5760
发布2020-05-08 16:02:58
举报
文章被收录于专栏:算法channel

个人原创,一字一字敲的。

判断一个分类模型好坏的标准至关重要,问题是采用何种判断方法。本文浅谈一下模型评估方法的重要性,希望对初学者有一定帮助。

准确率

表面上看这是一个简单的问题,如果分类的准确率越高,就断言分类模型越好。

据此评价方法,对于二分类问题,评价分类算法准确率的计算公式为:

其中,P 全称 Positive; N 全称 Negative; T 全称 True, 表示预测正确;F 全称 False, 表示预测错误。

如果正负样本个数较为均衡,使用以上评价公式是没有问题的。

实际中,我们要分类的问题大都满足正负样本个数均衡吗?

如果一下能举出很多反例,大概率就可以说正负样本不均衡的情况还是很多。银行卡信贷欺诈判断、交通违规判断、考试作弊判断、垃圾邮件检测、涉黄电影判断、恶性肿瘤检测...

并且下意识告诉我们,这些分类任务的数据集中正负样本个数往往是不均衡的,欺诈的交易总归占据少数,交通违规、考试作弊大概率也如此...

如果正负样本个数比例真是这样不均衡,使用以上公式评价问题就出现了。比如 100 个肿瘤检测报告中,只有 1 个是正类别(确定为肿瘤),对于这类数据集,我们只要写一行代码,预测所有都为负类别(即确定不是肿瘤),则:

你看,我们什么都没做,仅靠投机取巧,模型预测的准确率就达到 99%,这太匪夷所思!

精确率+召回率

显然,仅仅使用准确率评价模型好坏,失败了。原因在于正负样本个数的不均衡,导致评价出现问题。

所以,需要设计出更加科学健全的评价指标。于是就有了 精确率+召回率的评价体系。

其中,精确率 的计算公式为:

公式意义:被预测为正类别的样本中,确实为正类别的比率。

召回率 的计算公式为:

公式意义:在所有正类别样本中,能够正确的识别为正类别的比率。

按照此评价体系,如果还是纯碎靠猜测,即预测 100 个肿瘤全为负类别,则:

这种极端情况,我们没有预测出正样本,所以精确率公式失去意义。下面考察召回率:

等于 0,所以判定纯碎靠猜是不可取的,所以精确率+召回率的评价体系更优于仅凭准确率的方法。


希望此篇文章能帮助大家通俗易懂的理解三个概念:准确率精确率召回率,以及各自存在的价值。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-04-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 程序员郭震zhenguo 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 准确率
  • 精确率+召回率
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档