开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >机器学习2--二分类问题：ROC曲线；逻辑回归与SoftMax

机器学习2--二分类问题：ROC曲线；逻辑回归与SoftMax

用户5473628

发布于 2019-08-08 11:02:54

1.7K0

发布于 2019-08-08 11:02:54

举报

文章被收录于专栏：MiningAlgorithms

目录：

1 ，二分类问题：算法评价指标

1.1，P-R曲线；

1.2，F1-score;

1.3，ROC曲线；

2 ，线性分类之逻辑回归：

3 ，多分类问题：SoftMax、信息熵（cross_entropy）

1.1 ，P-R曲线：以二分类问题为例，分类结果的混淆矩阵如下：

TP：True positive;

FN: False negative;

FP: False positive;

TN: True negative.

评分指标如下：

查准率（precision_score）：TP / (TP+FP);

召回率（Recall rate） : TP / (TP+FN);

准确率（Accuracy_score）：(TP+TN) / (TP+TN+FP+FN).

召回率与查准率往往不可兼得，顾此失彼，算法设计时，重点照顾查准率，召回率就会下降；反之亦然。因不同应用场景而设计不同的算法很重要，例如，医疗行业里，对检测仪器的召回率的要求较高，因为如果患病者没有被识别出来，被认为没有患病；相比查准率：没有患病被检测为患病，的后果较严重，显然后者可以通过重复检测来获得一个正确的结论：没有患病；而前者的后果就比较严重，耽误的病症的最佳治疗期间。

下图所示：查全率就是召回率，平衡点的判定标准因不同行业和不同的应用场景而不同。

从图上所示，不同的算法，对应着不同的P-R曲线：A，B，C三条曲线。通常，我们认为如果一条曲线C，能够被另一条曲线A包住，则认为A的性能优于甲,即A算法优于C算法，算法A是查的有权有好的算法，最接近真实的算法。

而对于A，B两种算法，就不那么容易判断那种算法较优了，45度先就是一个衡量算法优劣的一个参考，上图标注的点事P=R时取值。

1.2，F1-score:

同一算法对不同阀值优劣的判定标准，F_score是其中之一：

F_score = 2RP / (R+P);

F1_score = (1/R + 1/P) / 2 .

这是判定阀值在P与R之间的一个平衡标准。

1.3，ROC曲线：Receiver Operating Characteristic.

ROC曲线上每个点反映着对同一信号刺激的感受性。

如下面两张图所示：图一是一个好的分类器（分类算法）；图二就是一个劣的分类器；因为就算设定相同的阀值，一会产生不同的分类结果。不同的算法对同一数据处理路径不同，从而产生不同的感受性，对正负样本产生不同的分布群落，从而导致相同阀值产生的分类的P和R的不同。这里图一对应算法A；图二对应算法C。

不同的分类器对应着不同的统计图，如上面两张图所示，就是不同算法产生的统计效果图。

ROC曲线就是分类器的一个评价指标：

如下图所示不同阀值的游走产生了ROC曲线，曲线距左上角越近，证明分类效果越好。

不同的分类器对应不同的ROC曲线，我们可以用AUC来量化它，即ROC曲线下方的面积，通过比较AUC的大小，量化比较分类器的优劣。

2 ，逻辑回归：

3 ，多分类问题：SoftMax、信息熵；

知乎上关于线性分类的三个笔记看成经典：

https://zhuanlan.zhihu.com/p/20918580?refer=intelligentunit

https://zhuanlan.zhihu.com/p/20945670?refer=intelligentunit

https://zhuanlan.zhihu.com/p/21102293?refer=intelligentunit

点击原文进入CSDN一篇关于SoftMax的经典笔记。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-11-18，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MiningAlgorithms 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.