ROC曲线与癌症分类

ROC曲线

ROC(receiver operating characteristic curve)曲线的对象是二分类问题,选择不同的阈值会有不同的分类结果。 ROC将不同阈值下的TP rateFP rate表示在一张图表上,便于直观地看到不同阈值的作用以及分类器本身的作用情况。

Confusion Matrix如下:

ROC curve如下,不同的阈值对应着图上不同的点:

其中,

Sensitivity=TPrate=TPTP+FNSpecificity=FPrate=FPFP+TN

\begin{split} \mathrm{Sensitivity} = \mathrm{TPrate} = \frac{TP}{TP+FN} \\ \mathrm{Specificity} = \mathrm{FPrate} = \frac{FP}{FP+TN} \end{split} 一般认为越靠近左上角分类结果越好(TP rate高,FP rate低)。这表示对于Positive的样本有很大的概率识别出来(TP rate高),同时对Negative的样本有较小的误判几率(FP rate低)。

二分类问题的评价标准

最典型的评价标准是AUC,也就是ROC曲线下的面积(baseline model的AUC是0.5)。 同时,根据不同分类的严重性不同,也可以定义自己的cost function

癌症分类

下面举一个癌症分类的例子,你会发现有时候现实和常识往往不一样哦。

Tables

Positive

Negative

All Row

++

0.0095

0.0005

0.01

−-

0.198

0.792

0.99

All Column

0.2075

0.7925

1.00

对上面的confusion matrix简单阐述下:

  • 人群中患癌症的概率是P(+)=0.01P(+)=0.01,不患癌症的概率是P(−)=0.99P(-)=0.99
  • 患癌症的人被检测出来患癌症的概率是P(P|+)P(+)=95%\frac{P(P|+)}{P(+)}=95\%。

那么,问题是如果有一个人被检测出来患癌症,那么他真的患癌症的概率是多少呢?

想一想,在心里面给一个答案^_^。

真实的答案是4.6%4.6\%。

P(P|+)=P(P+)P(P)=0.00950.2075=4.6%

P(P|+) = \frac{P(P+)}{P(P)}=\frac{0.0095}{0.2075}=4.6\%

有没有觉得跟自己想象的差别很大,95%95\%的TP rate虽然很高,但是也得关注下20%20\%的FP rate,并且人群中不患癌症的占了99%99\%。

或者换个角度,假如把所有病人都判定为患癌症,那么TP rate是1感觉还不错哦,但是这时候的FP rate是1,也就是把所有不患癌症的都判断患癌症,这不是很好啊。这个时候即使判断你为癌症那么可信度也不高。

P(P|+)=P(P+)P(P)=1%

P(P|+) = \frac{P(P+)}{P(P)}=1\%

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

NIPS 2018 | 程序翻译新突破:UC伯克利提出树到树的程序翻译神经网络

程序是构建计算机应用、IT 产业和数码世界的主要工具。为了方便程序员为不同的应用开发程序,人们发明了各种编程语言。与此同时,当程序员想要将用不同语言编写的程序组...

771
来自专栏新智元

【干货】用神经网络识别歌曲流派(附代码)

DataSet: 本文使用GTZAN Genre Collection音乐数据集,地址:[1]

655
来自专栏程序员的知识天地

前端工程师深度学习,就能在浏览器里玩转深度学习

TensorFlow.js 的发布可以说是 JS 社区开发者的福音!但是在浏览器中训练一些模型还是会存在一些问题与不同,如何可以让训练效果更好?本文为大家总结了...

1013
来自专栏有趣的Python和你

sklearn调包侠之KNN算法

1425
来自专栏人工智能

随机森林的简单实现

随机森林(RandomForest):顾名思义,是用随机的方式建立一个森林,森林里面:由很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后...

3487
来自专栏机器学习原理

机器学习(12)——随机森林集成学习随机森林

前言:前面已经介绍了的几种算法,应该对算法有了一个基本的认识了,本章主要是在前面已经学到的基础上,对前面的算法模型进行整合操作,训练出效果更好的分类器模型。 集...

6756
来自专栏一棹烟波

全景图转小行星视角投影原理详解

全景图是2:1比例的图片,一般是多张图像拼接而成。全景图2:1的比例可以很方便的映射到球面,而球坐标可以很方便的实现各种有趣的投影。比如小行星,水晶球,局部透视...

482
来自专栏自然语言处理

朴素贝叶斯一步步轻松学3

朴素贝叶斯分类算法模型在中文领域中的应用。我们对新闻语料进行多文本分类操作,本文选择艺术、文学、教育、哲学、历史五个类别的训练文本,然后采用新的测试语料进行分类...

783
来自专栏北京马哥教育

Python+OpenCV实现增强现实(第1部分)

3457
来自专栏机器学习算法与Python学习

GitHub最受欢迎深度学习应用项目 Top 5

1 Neural Style Star:12122 Github:https://github.com/jcjohnson/neural-style 这个项目是...

41412

扫码关注云+社区