前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ROC曲线 和 AUC 直白详解

ROC曲线 和 AUC 直白详解

作者头像
solve
发布2019-10-30 13:46:30
1K0
发布2019-10-30 13:46:30
举报
文章被收录于专栏:大数据技术栈大数据技术栈

ROC曲线

  • 定义

信号检测理论中,接收者操作特征曲线receiver operating characteristic curve, 或者叫ROC曲线)是一种坐标图式的分析工具, 用于 (1) 选择最佳的信号侦测模型、舍弃次佳的模型。 (2) 在同一模型中设定最佳阈值。

这里我们只要记得 ROC曲线 主要是用来确定一个模型的 阈值。 同时在一定程度上也可以衡量这个模型的好坏

  • 理解 既然我们想要直白来理解 ROC曲线,那么例子是肯定少不了的: 假设1:感冒有三种特征,咳嗽,发烧,流鼻涕。 假设2:如果想确定一个人是否得了感冒, 可以根据三种特征来打分, 每个特征可以打 0-1 分。 打分越高, 得感冒概率越高。 假设3:现在你是一个医生, 有100个病人来看病, 你需要根据这些人的三个感冒特征给他们打分, 得到如下一组数据 (编号,分数): (1,2) (2,2.4) (2,0.4)....(100,3) 假设4:我是一个神医, 能百分百确定别人是否得了感冒。 然后我看了你的报告, 并给每个数据都给了确定的答案, 其中感冒60人,正常40人, 这一步骤主要是模拟实际生产数据中的真实 lab 值。 所以数据就变成了(编号,是否真感冒,分数) (1,0,2) (2,1,2.4) (2,0,0.4).... (100,1,3) 好了,现在问题来了, 你是给每个病人打分了, 也知道分数越高得感冒得概率越高, 但是,到底得没得感冒却没有一个标准, 这个标准就是上面说的 阈值, 所以接下来就是要想办法确定这个 阈值或者标准了, 那么我们采用办法呢? 对于这种 二分类 问题的阈值, 就是我们 ROC 曲线大展身手的时候了。
  • ROC 曲线 和 阈值
    • 阈值比较小的时候: 如果我们认为打 1 分以上的就是感冒患者, 那么只要有一点症状就可以确诊为感冒了, 这时候100个人,确诊感冒的可能有 80 人, 但是实际呢? 可能80个人中只有50个是真感冒的。 如下图:

    阈值=1 诊断感冒 诊断正常 合计 真感冒 60 0 60 真正常 20 20 40 合计 80 20 100 我们可以发现被你诊断为 感冒的 患者中, 有 60 个是 真的患者, 还有 20 个 正常 也被你诊断成了 感冒。

    • 阈值比较大的时候: 如果我们认为打 2 分以上的才是感冒患者, 这时候100个人, 确诊感冒的可能有 20 人, 但是实际呢? 真正感冒的可是60人, 你只确诊20个, 如下图: 阈值=2 诊断感冒 诊断正常 合计 真感冒 20 40 60 真正常 0 40 40 合计 20 80 100 我们可以发现,诊断为感冒的20人,每一个都是真正的患者, 但是同时,一些特征可能不是很明显的真正患者也被你误诊为了正常
    • 什么是合适的阈值 我们期望的是阈值不大不小, 换句话理解就是, 我们希望得到一个使得 如果是患者,那就一定要诊断为患者, 而如果你不是患者,我也不能把你误诊成患者, 那么将这个想法用公式表示出来就是:
    真阳率 = \frac{诊断感冒正确的人数}{真感冒人数}
    真阳率 = \frac{诊断感冒正确的人数}{真感冒人数}
    假阳率 = \frac{诊断感冒错误的人数}{正常的人数}
    假阳率 = \frac{诊断感冒错误的人数}{正常的人数}

    这里我们引入了真阳率 和 假阳率, 其定义如下: 真阳率:预测为真,并且预测正确 占 所有真样本的 比例 假阳率:预测为真,但是预测错误 占 所有非真样本的 比例 这里很明显,我们的 真 就是 患者,非真 就是 正常 人 所以合适的阈值就是:使得 真阳率 趋于 1,并且 假阳率 趋于 0。

    • 寻找合适的阈值 所以我们一点点改变阈值, 就可以得到一组又一组的 真阳率 和 假阳率 , 将这一组组 真阳率 和 假阳率在坐标轴上表示出来, 就是我们要的 ROC曲线, 通过图形化,我们就可以很直观的看到他们的变化了。 这个图只是随便在网上找的, 可不是这个列子的图噢, 我们大概看下 ROC曲线的 样子就好了

    roc.png 其中 x 轴表示 假阳率,y 轴表示 真阳率, 可以发现 假阳率 和 真阳率 是成正相关的, 也就是说我们其实基本不可能找到一个 阈值, 使得 真阳率=1假阳率=0, 如果出现这种情况, 那么这个曲线的经过(0,1)点, 这个图就是一个正方形了。

好了,到这里我想对 ROC曲线 你应该有一个比较感观的认识了, 其实这个算法也是很符合我们的常识的, 也告诉我们,看似高大上的一些算法, 其实真的就是源于生活的点点滴滴。

这里再补充一点: 我一直说的都是从 预测为感冒 这个角度来阐述, 这也是二分类的一个好处, 我们只要想明白了一个角度, 另外一个角度就是一个 1 - x 的问题了

AUC

  • 定义
    1. ROC曲线 与 横轴 围城的曲边形的面积
    2. 将所有样本根据算法模型预测的打分进行升序排列, 随机挑选一正一负两个样本, 负样本排在正样本前面的概率

    只是看文字好像不是很好理解, 可以结合上面那个例子来看一看就好理解了, 我们给所有来看病的人都有打分, 按照打分给他们排个序, 然后随机挑选一个真得感冒 和 一个 真正常的人, 看一下是不是真正常的人排在前面, 如果是,那么计数为1, 进行 N 次实验, 所有计数的累计和 为 n, 那么 n/N 就是AUC的值了, 顺便提一下,最理想的情况就是 n = N了, 也意味着我们的打分已经完美

定义有两种,但是他们应该如何进行理解互通呢? 笔者目前也不是很清楚,尝试推理了下, 也不是很明白,这里就不敢班门弄斧了, 如果有大佬理解,请不吝赐教!!!非常感谢!!! 这里如果有感谢兴趣的朋友,也可以查看下 这篇博客, 应该是我找到的比较有深度的 auc 的计算了

  • 为什么需要 AUC 前面我们说了 ROC曲线 可以用来给一个模型确定阈值, 那么 AUC 则是来评判一个 二分类的 模型的优劣。 如果 AUC = 1:完美预测,基本不会存在的情况。 如果 0.5 < AUC < 1:除了完美预测,那就乘这个区间的最有价值了。 如果 AUC = 0.5:因为是二分类,随机猜测也就是这个概率了,完全就没有价值 如果 AUC < 0.5:比随机猜测的概率还低!!!但是反过来说,非黑即白,如果取个反呢?

总的来说,不考虑最后一种情况, AUC当然是越大 越好, 如果是最后一致情况,那当然是越小越好, 因为我一旦取反,那么就和第一种情况一样啦。

这里还补充一点, 关于我们预测分类为什么不直接用 准确度,

准确度=\frac{预测正确的样本数}{ 预测的样本数}
准确度=\frac{预测正确的样本数}{ 预测的样本数}

我们可以想象一下,对于一些有偏的数据, 比如中彩票的概率如果是 万分之一, 那么我要预测中没中彩票, 只要都预测为不中, 那我的准确率不是有 99.99%? 看数据是不是很好,但是实际是不是很废? 用 ROC 和 AUC 来评判就是可以很好的避免这个问题了, 具体你可以自己算算这个列子的 ROC 曲线就可以理解了。

  • AUC 计算 首先还是这篇博客。 其次,我想说的是,写AUC的博客那么多, 为什么没人将工作中的计算方法说上来呢? 所以这里我就贴一个工作中计算方式: 1.首先我们计算AUC肯定得有一份打完分了的数据,假设数据auc.text,内容如下: -1 0.12 -1 0.13 -1 0.16 1 0.2 -1 0.21 -1 0.23 1 0.3 -1 0.32 -1 0.35 1 0.4 -1 0.42 -1 0.46 1 0.5 -1 0.51 -1 0.53 1 0.7 1 1.1 1 1.2 1 1.2
    1. 计算方法 cat auc.text |sort -k2n|awk '($1==-1){++x;a+=y}($1==1){++y}END{print 1.0-a/(x*y)}' 通过一个简单的 awk 就可以得出来了, 至于这个公式得原理,也很简单, 就是完全遵循我们定义中的第二种方式得来的, 推理过程就不啰嗦了, 大致解释下:
      1. x 表示所有负样本数,y表示 正样本数
      2. 所以 x * y 就是对所有正负做一次 AUC 实验,可以做 x*y 这么多次
      3. 因为是排序的,所以每当在 负样本上面找到一个正样本, 那么实验错误的次数就得累计一次
      4. 所以 y 其实也就记录了,当前这个负样本上面 有多少个 正样本, 那么就有多少次预测错误,
      5. 所以 a 记录的就是预测错误的值
      6. 所以 1- (a/x*y) 就是 AUC

我不知道我解释的有没有让你明白.... 但是我只能说到这里了.... 好了,本文到此就结束啦!谢谢你的阅读!!!

如果觉的本文对你有帮助...可否奢求你一个认可的 赞 呢 ??

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019.01.10 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • ROC曲线
  • AUC
    • 如果觉的本文对你有帮助...可否奢求你一个认可的 赞 呢 ??
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档