首页
学习
活动
专区
圈层
工具
发布

【临床预测模型】 临床预测模型,数据集按7:1:2拆分为训练集,验证集和测试集,这是为什么?

在机器学习中,为了确保所构建的预测模型既有效又稳定,研究者不会将所有的数据一股脑儿地用于训练模型,这是因为,仅凭训练集上的表现无法全面评估模型的性能。

于是,研究者将数据集划分为训练集验证集,以进行内部验证。

内部验证是基于模型开发队列数据进行的验证,通常内部验证也是作为模型开发的一部分,其目的是检验模型开发过程的可重复性,并且防止模型过度拟合以致高估模型的性能。

在预测模型中,最常见的训练集验证集的拆分比例有7:38:2,但在近期看到的一篇机器学习构建预测模型的文章中,却是按照7:1:2的比例将数据拆分为训练集、验证集和测试集,让我们一起看看为什么这样拆分!

原文阅读

发表在期刊《European Heart Journal》(医学一区top,IF=37.6)的研究论文中,研究团队纳入了符合条件的心电图数据,使用深度学习模型构建心房颤动(AF)风险的预测模型。

与先前我们看到的机器学习构建预测模型的文章不同,在该项研究中,研究团队将符合条件的心电图数据按照7:1:2的比例拆分成训练集、验证集和测试集。

同样,在一篇发表在期刊《Journal of Medical Internet Research》(医学二区top,IF=5.8)的研究论文中,研究团队划分了训练集(70%)、验证集(10%)和测试集(20%),基于CLHLS数据库,使用四种机器学习法构建中国社区老年人认知功能障碍预测模型。

原文中对于三个数据集的定义是:

训练集用于模型开发;

训练完成后,利用验证集对模型参数进行调整,探索最优截止点;

测试集用于最终评估模型的性能。

由此我们可以得出,在划分三个数据集的时候,验证集起到优化模型参数和选择最佳的超参数的作用。

什么时候不需要验证集?

上述三个数据集的划分在机器学习构建预测模型领域不是个例,除了7:1:2的划分比例外,还有研究团队按照8:1:1或6:2:2划分,通常情况下,训练集的数据要大于其余两个数据集。

虽然验证集的存在可以帮助我们调整模型参数,避免过拟合,但在某些特定情况下,我们可以省略验证集。

例如,在数据量比较小的情况下,拆分数据集可能会导致训练集、验证集或测试集中的样本数量不足,从而影响模型的训练和验证效果。

此时,我们可以考虑使用交叉验证等方法来充分利用有限的数据。

另外,如果数据集本身质量很高,即数据噪声低且训练样本能够充分代表整体数据的分布特征,那么模型在训练集上学习到的规律在测试集上往往也能得到较好的体现。

在这种情况下,模型在测试集上的性能评估可以较为接近其在理想验证集上的预期表现,因此,在数据质量足够好的前提下,有时可以考虑不单独设立验证集来简化流程。

综上所述,数据集拆分在预测模型开发和验证中扮演着至关重要的角色。通过合理的拆分比例和科学的验证方法,我们可以构建出更加稳定、准确的预测模型。

简而言之,如果你数据量大,拆分为训练集,验证集和测试集能获得更好的模型性能和可靠的评估结果,是不错的思路;如果数据量不大,也不必强求!

——The  End——

记得点赞、分享,让更多的朋友一起探索这个IT世界的新篇章!

AIGC周边正在发布,关注生活,冻龄青春

推荐阅读

【临床预测模型】基于logistic回归模型预测医院感染

【临床预测模型】临床预测模型样本量计算,包括精确法和EPV法,哪种更合适?

【临床预测模型】绘制动态列线图

【临床预测模型】如何利用模型构建评分系统?松哥分享的多种方法

【临床预测模型】如何利用模型构建评分系统?松哥分享的多种方法

【大模型】[huggingface] 开源医疗大模型排行榜: 健康领域大模型基准测试

【大模型】最早的一批医疗大模型,已经走到了商业化时期

【大模型】开源中文医疗大模型(18+)概览

【Meta分析】Meta分析中的漏斗图应用与解读

【临床研究】临床研究电话随访指导方案(2025年版)

【科研专题】一文明白什么是Meta分析

【科研专题】Meta分析全流程-附带医学案例

【Meta分析】Meta分析中的漏斗图应用与解读

【数据库】临床研究专病结构化数据集——肘关节功能障碍

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O-4_gecLQ1CZBeN1XDcQpcJA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券