前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ROC曲线与癌症分类

ROC曲线与癌症分类

作者头像
用户1147754
发布2018-01-02 17:04:02
1.5K0
发布2018-01-02 17:04:02
举报
文章被收录于专栏:YoungGyYoungGy

ROC曲线

ROC(receiver operating characteristic curve)曲线的对象是二分类问题,选择不同的阈值会有不同的分类结果。 ROC将不同阈值下的TP rateFP rate表示在一张图表上,便于直观地看到不同阈值的作用以及分类器本身的作用情况。

Confusion Matrix如下:

这里写图片描述
这里写图片描述

ROC curve如下,不同的阈值对应着图上不同的点:

这里写图片描述
这里写图片描述

其中,

Sensitivity=TPrate=TPTP+FNSpecificity=FPrate=FPFP+TN

\begin{split} \mathrm{Sensitivity} = \mathrm{TPrate} = \frac{TP}{TP+FN} \\ \mathrm{Specificity} = \mathrm{FPrate} = \frac{FP}{FP+TN} \end{split} 一般认为越靠近左上角分类结果越好(TP rate高,FP rate低)。这表示对于Positive的样本有很大的概率识别出来(TP rate高),同时对Negative的样本有较小的误判几率(FP rate低)。

二分类问题的评价标准

最典型的评价标准是AUC,也就是ROC曲线下的面积(baseline model的AUC是0.5)。 同时,根据不同分类的严重性不同,也可以定义自己的cost function

癌症分类

下面举一个癌症分类的例子,你会发现有时候现实和常识往往不一样哦。

Tables

Positive

Negative

All Row

++

0.0095

0.0005

0.01

−-

0.198

0.792

0.99

All Column

0.2075

0.7925

1.00

对上面的confusion matrix简单阐述下:

  • 人群中患癌症的概率是P(+)=0.01P(+)=0.01,不患癌症的概率是P(−)=0.99P(-)=0.99
  • 患癌症的人被检测出来患癌症的概率是P(P|+)P(+)=95%\frac{P(P|+)}{P(+)}=95\%。

那么,问题是如果有一个人被检测出来患癌症,那么他真的患癌症的概率是多少呢?

想一想,在心里面给一个答案^_^。

真实的答案是4.6%4.6\%。

P(P|+)=P(P+)P(P)=0.00950.2075=4.6%

P(P|+) = \frac{P(P+)}{P(P)}=\frac{0.0095}{0.2075}=4.6\%

有没有觉得跟自己想象的差别很大,95%95\%的TP rate虽然很高,但是也得关注下20%20\%的FP rate,并且人群中不患癌症的占了99%99\%。

或者换个角度,假如把所有病人都判定为患癌症,那么TP rate是1感觉还不错哦,但是这时候的FP rate是1,也就是把所有不患癌症的都判断患癌症,这不是很好啊。这个时候即使判断你为癌症那么可信度也不高。

P(P|+)=P(P+)P(P)=1%

P(P|+) = \frac{P(P+)}{P(P)}=1\%

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • ROC曲线
  • 二分类问题的评价标准
  • 癌症分类
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档