机器学习入门案例：鸢尾花数据集分类绘制PR曲线

DataScience

发布于 2020-08-04 10:17:32

1.3K0

发布于 2020-08-04 10:17:32

文章被收录于专栏：A2DataA2Data

案例使用鸢尾花数据集进行分类预测，并绘制评价分类性能的PR曲线图

认识分类任务和数据集

Iris(鸢尾花)数据集

案例演示中使用的是有监督的机器学习算法：SVM 支持向量机

建立模型的流程如下：

训练接和测试集的拆分：

使用留出法（Hold-Out Method）

按照一定的比例将数据分为训练集和测试集

分类问题：

分类性能评价和PR图

分类性能度量—准确率

分类性能度量—精确率和召回率

精确率是分类预测结果中的正例的比例，召回率是指被分类器真正判定为正例的比率。

分类性能度量—P‐R曲线

如何绘制PR曲线？

简单的来说，要形成PR曲线，我们需要不断的设定阈值，比如说当预测分数大于0.6(阈值)时，我们认为是 P 正例；不断的调整阈值，得到不同的precision 和 recall，可以绘制出PR曲线。

分类性能度量—ROC‐AUC计算

代码实现

获取代码：回复公众号 ”鸢尾花“

结果如下：

写在最后

本案例是对鸢尾花数据集进行分类预测的监督学习模型，包含了机器学习建模过程所用到的概念，可以作为学习机器学习的入门案例来使用。

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2020-08-02，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习

本文分享自 DataScience 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度