ROC曲线与癌症分类

ROC曲线

ROC(receiver operating characteristic curve)曲线的对象是二分类问题,选择不同的阈值会有不同的分类结果。 ROC将不同阈值下的TP rateFP rate表示在一张图表上,便于直观地看到不同阈值的作用以及分类器本身的作用情况。

Confusion Matrix如下:

ROC curve如下,不同的阈值对应着图上不同的点:

其中,

Sensitivity=TPrate=TPTP+FNSpecificity=FPrate=FPFP+TN

\begin{split} \mathrm{Sensitivity} = \mathrm{TPrate} = \frac{TP}{TP+FN} \\ \mathrm{Specificity} = \mathrm{FPrate} = \frac{FP}{FP+TN} \end{split} 一般认为越靠近左上角分类结果越好(TP rate高,FP rate低)。这表示对于Positive的样本有很大的概率识别出来(TP rate高),同时对Negative的样本有较小的误判几率(FP rate低)。

二分类问题的评价标准

最典型的评价标准是AUC,也就是ROC曲线下的面积(baseline model的AUC是0.5)。 同时,根据不同分类的严重性不同,也可以定义自己的cost function

癌症分类

下面举一个癌症分类的例子,你会发现有时候现实和常识往往不一样哦。

Tables

Positive

Negative

All Row

++

0.0095

0.0005

0.01

−-

0.198

0.792

0.99

All Column

0.2075

0.7925

1.00

对上面的confusion matrix简单阐述下:

  • 人群中患癌症的概率是P(+)=0.01P(+)=0.01,不患癌症的概率是P(−)=0.99P(-)=0.99
  • 患癌症的人被检测出来患癌症的概率是P(P|+)P(+)=95%\frac{P(P|+)}{P(+)}=95\%。

那么,问题是如果有一个人被检测出来患癌症,那么他真的患癌症的概率是多少呢?

想一想,在心里面给一个答案^_^。

真实的答案是4.6%4.6\%。

P(P|+)=P(P+)P(P)=0.00950.2075=4.6%

P(P|+) = \frac{P(P+)}{P(P)}=\frac{0.0095}{0.2075}=4.6\%

有没有觉得跟自己想象的差别很大,95%95\%的TP rate虽然很高,但是也得关注下20%20\%的FP rate,并且人群中不患癌症的占了99%99\%。

或者换个角度,假如把所有病人都判定为患癌症,那么TP rate是1感觉还不错哦,但是这时候的FP rate是1,也就是把所有不患癌症的都判断患癌症,这不是很好啊。这个时候即使判断你为癌症那么可信度也不高。

P(P|+)=P(P+)P(P)=1%

P(P|+) = \frac{P(P+)}{P(P)}=1\%

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

【论文推荐】最新五篇度量学习相关论文—无标签、三维姿态估计、主动度量学习、深度度量学习、层次度量学习与匹配

【导读】专知内容组整理了最近五篇度量学习(Metric Learning )相关文章,为大家进行介绍,欢迎查看! 1.Mining on Manifolds: ...

3173
来自专栏AI科技评论

开发 | 计算机视觉中,究竟有哪些好用的目标跟踪算法(下)

VOT2015竞赛 VOT2015 Challenge | Home(http://votchallenge.net/vot2015/) 如期而至,这一年有60...

4196
来自专栏CreateAMind

生成模型学习的特征属性如何操作修改等介绍

https://devblogs.nvidia.com/parallelforall/photo-editing-generative-adversarial-...

692
来自专栏专知

【论文推荐】最新5篇图像分割(Image Segmentation)相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【导读】专知内容组整理了最近五篇图像分割(Image Segmentation)相关文章,为大家进行介绍,欢迎查看! 1. Improved Image Seg...

3884
来自专栏TEG云端专业号的专栏

图片相似性匹配中的特征提取方法综述

stevenmiao(苗捷),2016年7月博士毕业于华南理工大学,应届毕业加入TEG信息安全部。八年计算机视觉算法经验,博士期间主要研究面向视频的特征提取和内...

5369
来自专栏数据科学与人工智能

【机器学习】机器学习和计算机视觉相关的数学

MIT一牛人对数学在机器学习中的作用给的评述,写得很实际 机器学习和计算机视觉都是很多种数学的交汇场。看着不同的理论体系的交汇,对于一个researcher来说...

2518
来自专栏SIGAI学习与实践平台

计算机视觉技术self-attention最新进展

Attention注意力,起源于Human visual system(HVS),个人定义的话,应该类似于 外界给一个刺激Stimuli,然后HVS会第一时间产...

764
来自专栏媒矿工厂

HDR关键技术:色调映射(三)

HDR技术近年来发展迅猛,在未来将会成为图像与视频领域的主流。如何让HDR图像与视频也能够同时兼容地在现有的SDR显示设备上显示,是非常重要的技术挑战。色调映射...

1494
来自专栏杨熹的专栏

对比学习用 Keras 搭建 CNN RNN 等常用神经网络

参考: 各模型完整代码 周莫烦的教学网站 这个网站上有很多机器学习相关的教学视频,推荐上去学习学习。 Keras 是一个兼容 Theano 和 Tens...

3558
来自专栏CreateAMind

Integration of Deep Learning and Neuroscience整合神经科学和深度学习

Neuroscience has focused on the detailed implementation of computation, studying...

1042

扫码关注云+社区