前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习day4

机器学习day4

作者头像
福贵
发布2020-06-04 15:57:32
3130
发布2020-06-04 15:57:32
举报
文章被收录于专栏:菜鸟致敬菜鸟致敬

ROC曲线

二值分类器是机器学习中最常见的分类器。评价的指标也有很多,precision,recall,F1 score等等。ROC曲线也是之一。 ROC,Receiver Operating Characteristic Curve,受试者工作特征曲线。 ROC曲线的横坐标为假阳性率(False Positive Rate,FPR),纵坐标为真阳性率(True Positive Rate,TPR)。

P是真实的正样本数量,N是真实的负样本数量,TP是P个真样本中被分类器预测为正样本的个数,FP是N个负样本中被分类器预测为正样本的个数。

AUC

AUC是ROC曲线下的面积大小,该值可以衡量反应基于ROC曲线衡量出的模型性能。

余弦距离

余弦相似度的范围为[-1,1]。相同的两个向量相似度为1。1减去余弦相似度即是余弦距离,因此余弦距离的取值是[0,2],相同的两个余弦距离为0。 对于两个向量A和B,其余弦相似度定义

即两个向量夹角的余弦,关注两个向量之间的角度关系。取值范围[-1,1]。 比如一对文本相似度的长度差距很大,但是表达的内容差不多,那么在空间中的欧式距离就会很大,但是余弦相似度却可能很小。 比如在Word2Vec中,其向量的长度经过归一化,那么欧式距离和余弦距离关系单调。

模型评估方法

Holdout检验

交叉检验

留一验证

自助法

不管是Holdout还是交叉验证,如果数据集本身较小,对数据集再次划分使规模减少,影响模型的训练。 自助法不同,对于总数为n的样本集合,进行n次有放回的随机抽样,得到大小为n的训练集,n次采样中,即是被重复采样,没被采集都没有关系。最后把抽到的作为训练集,没抽到的作为验证集。

自助法中,如果n无穷大,那么最终会有多少数据没被采集?

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-05-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python与MySQL 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • ROC曲线
  • AUC
  • 余弦距离
  • 模型评估方法
    • Holdout检验
      • 交叉检验
        • 留一验证
          • 自助法
            • 自助法中,如果n无穷大,那么最终会有多少数据没被采集?
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档