前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Data Whale 吃瓜日记 西瓜书第二章

Data Whale 吃瓜日记 西瓜书第二章

原创
作者头像
TomoriNao
发布2023-12-12 15:22:02
1020
发布2023-12-12 15:22:02
举报
文章被收录于专栏:每月技术成长每月技术成长

基础概念

  • 错误率(error rate) 分类错误的样本数占样本总数的比例
错误率 计算公式
错误率 计算公式
  • 精度(accuracy) 精度 = 1 - 错误率
精度 计算公式
精度 计算公式
  • 误差(error) 学习器的实际预测输出与样本真实输出之间的差异
  • 训练误差 (training error)/ 经验误差(empirical error) 学习器在训练集上的误差
  • 泛化误差(generalization error) 学习器在新样本上的误差
  • 过拟合(overfitting) 学习器将训练样本自身的特点当成所有潜在样本均具有的一般性质,导致泛化能力的下降的现象
  • 欠拟合(underfitting) 学习器对训练样本的一般性质尚未学习完毕的现象
  • 留出法(hold-out)
留出法 定义
留出法 定义
  • 交叉验证法(cross validation)
交叉验证法 定义
交叉验证法 定义
  • 自助法(bootstrapping)
自助法 定义
自助法 定义
  • 验证集(validation set) 模型评估与选择中用于评估测试的数据集
  • 性能度量(performance measure) 衡量模型泛化能力的评估标准
  • 查准率 (precision)/ 查全率(recall)
查准率 公式
查准率 公式
查全率 公式
查全率 公式
  • P-R 图 以查全率、查准率作为坐标轴形成的图
P-R图 示例
P-R图 示例
  • Fβ 度量
Fβ 度量 定义
Fβ 度量 定义
  • ROC 曲线与 AUC
ROC 曲线与 AUC 示例
ROC 曲线与 AUC 示例
  • 偏差(bias) 期望输出与真实标记的差别
偏差 计算公式
偏差 计算公式

重要结论

  • 过拟合无法避免,只能缓解或者说减少其风险
  • 查准率与查全率是一对矛盾的度量。一般来说,查准率高时,查全率往往偏低;查全率高时,查准率往往偏低
  • 若一个学习器的ROC曲线被另一个学习器的曲线完全“包住”,则可断言后者的性能优于前者;若ROC曲线发生交叉,则难以一般性地断言两者优劣,较为合理的判断依据为AUC的大小
  • 泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的

总结

本章介绍了评估模型能力的方法、性能度量的关键参数、比较检验不同学习器能力的方法,以及偏差、方差、噪声的定义与实际意义。模型的泛化能力取决于学习算法的能力、数据量以及学习任务的难度,根据不同的性能度量参数,得出的结论是不一定相同的,需要根据实际需要来选择合适的性能度量参数,评估选择出最佳的模型

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 基础概念
  • 重要结论
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档