前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习2--二分类问题:ROC曲线;逻辑回归与SoftMax

机器学习2--二分类问题:ROC曲线;逻辑回归与SoftMax

作者头像
用户5473628
发布2019-08-08 11:02:54
1.6K0
发布2019-08-08 11:02:54
举报
文章被收录于专栏:MiningAlgorithmsMiningAlgorithms

目录:

1 ,二分类问题:算法评价指标

1.1,P-R曲线;

1.2,F1-score;

1.3,ROC曲线;

2 , 线性分类之逻辑回归:

3 ,多分类问题:SoftMax、信息熵(cross_entropy)

1.1 ,P-R曲线:以二分类问题为例,分类结果的混淆矩阵如下:

TP:True positive;

FN: False negative;

FP: False positive;

TN: True negative.

评分指标如下:

查准率(precision_score):TP / (TP+FP);

召回率(Recall rate) : TP / (TP+FN);

准确率 (Accuracy_score):(TP+TN) / (TP+TN+FP+FN).

召回率与查准率往往不可兼得,顾此失彼,算法设计时,重点照顾查准率,召回率就会下降;反之亦然。因不同应用场景而设计不同的算法很重要,例如,医疗行业里,对检测仪器的召回率的要求较高,因为如果患病者没有被识别出来,被认为没有患病;相比查准率:没有患病被检测为患病,的后果较严重,显然后者可以通过重复检测来获得一个正确的结论:没有患病;而前者的后果就比较严重,耽误的病症的最佳治疗期间。

下图所示:查全率就是召回率,平衡点的判定标准因不同行业和不同的应用场景而不同。

从图上所示,不同的算法,对应着不同的P-R曲线:A,B,C三条曲线。通常,我们认为如果一条曲线C,能够被另一条曲线A包住,则认为A的性能优于甲,即A算法优于C算法,算法A是查的有权有好的算法,最接近真实的算法。

而对于A,B两种算法,就不那么容易判断那种算法较优了,45度先就是一个衡量算法优劣的一个参考,上图标注的点事P=R时取值。

1.2,F1-score:

同一算法对不同阀值优劣的判定标准,F_score是其中之一:

F_score = 2RP / (R+P);

F1_score = (1/R + 1/P) / 2 .

这是判定阀值在P与R之间的一个平衡标准。

1.3,ROC曲线:Receiver Operating Characteristic.

ROC曲线上每个点反映着对同一信号刺激的感受性。

如下面两张图所示:图一是一个好的分类器(分类算法);图二就是一个劣的分类器;因为就算设定相同的阀值,一会产生不同的分类结果。不同的算法对同一数据处理路径不同,从而产生不同的感受性,对正负样本产生不同的分布群落,从而导致相同阀值产生的分类的P和R的不同。这里图一对应算法A;图二对应算法C。

不同的分类器对应着不同的统计图,如上面两张图所示,就是不同算法产生的统计效果图。

ROC曲线就是分类器的一个评价指标:

如下图所示不同阀值的游走产生了ROC曲线,曲线距左上角越近,证明分类效果越好。

不同的分类器对应不同的ROC曲线,我们可以用AUC来量化它,即ROC曲线下方的面积,通过比较AUC的大小,量化比较分类器的优劣。

2 ,逻辑回归:

3 ,多分类问题:SoftMax、信息熵;

知乎上关于线性分类的三个笔记看成经典:

https://zhuanlan.zhihu.com/p/20918580?refer=intelligentunit

https://zhuanlan.zhihu.com/p/20945670?refer=intelligentunit

https://zhuanlan.zhihu.com/p/21102293?refer=intelligentunit

点击原文进入CSDN一篇关于SoftMax的经典笔记。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-11-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MiningAlgorithms 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档