前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >西瓜书笔记-模型评估与选择

西瓜书笔记-模型评估与选择

作者头像
Ewdager
发布2020-07-14 14:23:41
6590
发布2020-07-14 14:23:41
举报
文章被收录于专栏:Gvoidy备份小站Gvoidy备份小站

评估方法

将数据拆分为训练数据和验证数据,可以减小过拟合的可能性。但这样就必须拆分出和训练集数据分布几乎一致的验证数据。

留出法

通过分层采样对数据集D划分出样本集S和测试集T,D=S \cup T,S \cap T=\varnothing。例如,对D进行分层采样而获得70%样本的训练集S和含30%样本的训练集T,若D包含500个正例、500个反例,则分层抽样得到的S应该包含350个正例和350个反例,T包含150个正例和150个反例。

若有多种区分正例反例的划分方法,应当重复上述操作,进行多次划分、训练,最终实验评估结果取多次划分训练结果的平均。通常训练集和验证集的比例是2/3~4/5

分层抽样的具体程序是:把总体各单位分成两个或两个以上的相互独立的完全的组(如男性和女性),从两个或两个以上的组中进行简单随机抽样,样本相互独立。总体各单位按主要标志加以分组,分组的标志与关心的总体特征相关。例如,正在进行有关啤酒品牌知名度方面的调查,初步判别,在啤酒方面男性的知识与和女性的不同,那么性别应是划分层次的适当标准。

交叉验证法

现将数据集D划分为k个大小相似的互斥子集,即D=D_1 \cup D_2 \cup D_3 \ldots \cup D_k, D_i \cap D_j= \varnothing (i \neq j)每个子集都尽可能保持数据分布一致,同上即可对每个子集D_i进行分层抽样。看后用k-1个子集做训练集,余下的那一个做测试集。

从而进行k次训练、验证,最终返回测试结果的平均值。而k值取值很影响最终的结果。

自助法

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 评估方法
    • 留出法
      • 交叉验证法
        • 自助法
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档