前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >偏斜类的误差度量

偏斜类的误差度量

作者头像
讲编程的高老师
发布2021-05-13 11:20:01
5130
发布2021-05-13 11:20:01
举报

本文是吴恩达《机器学习》视频笔记第68篇,对应第6周第10个视频。

“Machine Learning System Design:——Error metrics for skewed classes”

01 笔记

前面两个小节讲了怎样快速用简单算法将流程跑通,给出了基本的误差分析方法。这一节讲偏斜类问题。

偏斜类

所谓的偏斜类(Skewed Class)的问题,对于二元分类来说,其实就是一种分类的数据量远远大于另外一种分类。

以是否恶性肿瘤(癌症)的分类为例,我们希望能根据病人的一些特征判断病人是否患有癌症(y=1表示有癌症,y=0表示没有癌症)。

我们用逻辑回归算法来解决问题,发现在测试集有99%的正确率,这个结果看上去很完美。但是,你要知道患有癌症的毕竟是少数,可能在我们的测试集中只有0.5%的人真的患有癌症。

这样的话,你就知道我们的算法有多离谱了。因为,如果我们不管三七二十一全部给预测为y=0(没有癌症),那也只有0.5%的错误。

像上面这种某一种分类占比特别大的情况,被称为偏斜类。很明显,对于偏斜类的误差度量需要优化。

偏斜类的误差度量

前面癌症判断那个例子中,假如我们采用了一些办法将算法从99.2%的准确率提升到99.5%的准确率,那我们对算法的这些改进是否有效呢?这是比较难判断的。

当我们遇到偏斜类时,经常使用查准率(Precision)和召回率(recall)的概念。这两个概念适用于二分类问题。

对于一个二分类问题,预测结果和实际结果有四种组合。

  1. 实际为1,预测为1;True positive, TP
  2. 实际为0,预测为1;False positive, FP
  3. 实际为1,预测为0;False negative, FN
  4. 实际为0,预测为0;True negative, TN

T开头表示预测正确(本来为真、预测为真TP;本来为假、预测为假TN),F开头表示预测错误(本来为假,预测为真FP,本例为真,预测为假FN)。

查准率Precision的意思是,TP/(TP+FP)。就是你所有预测为真那些样本中,预测正确的样本的占比。癌症那个例子就是,算法认为的所有癌症患者中真正的癌症患者占比是多少。查准率越高越好。

召回率Recall的意思是,TP/(TP+FN)。这个意思是,你预测为真并且正确的数量在实际为真的数量中的占比。癌症的那个例子就是,实际患有癌症的患者被算法成功筛查出来的比例。召回率当然是越高越好。

回到前面的例子再来看看,如果我们不管三七二十一,都认为患者没有癌症,准确率99.5%。那这样做的召回率就是0,当然这个算法就毫无意义了。

这样,如果一个算法同时有较好的查准率和召回率,那这个算法就还是不错的。注意:使用查准率和召回率的时候,我们让那个出现比较少的情况为1(y=1出现较少)。

02 视频

http://mpvideo.qpic.cn/0bf2leb3saadayapcx5oebpvgwodxfmqhoia.f10004.mp4?dis_k=f2777c1818cc3b99f523215008e99e4b&dis_t=1620875949&spec_id=MzAxMDYwMTc4Nw%3D%3D1620875949&vid=wxv_1603893537849278468&format_id=10004

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-05-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 讲编程的高老师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01 笔记
  • 偏斜类
  • 偏斜类的误差度量
  • 02 视频
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档