业界 | 似乎没区别,但你混淆过验证集和测试集吗?

选自Machine Learning Mastery

机器之心编译

参与:蒋思源

很多机器学习入门者对测试集和验证集的概念有所混淆,甚至很多机器学习开发工程师常常都会混淆这两个概念。因为当我们采用验证集的时候,测试集好像和验证集实际上并没有多大区别,所以本文从学界定义到实践中的具体影响探讨验证集和测试集间的区别。

验证数据集(validation dataset)是模型训练过程中留出的样本集,它可以用于调整模型的超参数和评估模型的能力。但测试数据集(test dataset)不同,虽然同是模型训练过程中留出的样本集,但它是用于评估最终模型的性能,帮助对比多个最终模型并做出选择。在开发机器学习系统时,我们对验证数据集及其与测试数据集的区别存在诸多混淆。本文将介绍训练数据集(train dataset)、测试数据集和验证数据集的确切定义,以及如何在机器学习项目中使用这三种数据集。

通过阅读本文,我们将了解:

  • 机器学习领域的专家对训练数据集、测试数据集和验证数据集的定义。
  • 验证数据集和测试数据集在实践中的区别。
  • 使用哪些过程能充分利用验证数据集和测试数据集进行模型评估。
  • 专家对验证数据集的定义

本节,我们将了解部分顶级教科书和参考文献如何定义训练数据集、测试数据集和验证数据集及其区别。

通常情况下,「验证数据集」指模型训练过程中留出的样本集,可与「测试数据集」这个术语互换。在训练数据集上对模型能力进行评估得到的结果存在偏差。因此,用留出的样本对模型能力进行评估得出的结果偏差更小。我们通常称之为使用训练集测试集划分方法(train-test split approach)进行算法评估。

假如我们想评估在一系列观察值上使用特定的数据学习方法后所产生的测试误差,那么验证集方法非常适合该任务。它包括将这些观察值任意切分成两部分:训练集和验证集(又称留出集,hold-out set)。模型在训练集上进行拟合,然后使用拟合后的模型对验证集中保留的数据样本进行预测。并定量地计算模型验证误差,通常我们使用 MSE 对错误率进行评估,评估生成的验证集错误率即测试错误率。——Gareth James, et al., Page 176, An Introduction to Statistical Learning: with Applications in R, 2013.

在 Kuhn 和 Johnson 的著作《应用预测建模》(Applied Predictive Modeling)一书中,我们可以看到作者认为「验证数据集」和「测试数据集」这两个词语可以互换。他们在实例中明确指出,必须在留出的数据集上进行最终模型评估,无论评估目的是训练模型还是调整模型参数。

理想情况下,模型评估应该在未用于模型构建或微调的样本上进行,这样才能对模型效率进行无偏评估。因此如果我们有大量数据可用,则可以留出一部分样本集用于最终模型的评估。训练数据集指构建模型时使用的样本集,而测试数据集或验证数据集用于评估模型性能。——Max Kuhn and Kjell Johnson, Page 67, Applied Predictive Modeling, 2013

传统情况下,对最终模型进行性能评估的数据叫作「测试集」。Russell 和 Norvig 在 AI 教科书《人工智能:一种现代方法》中再次强调了保持测试集完全独立的重要性。他们认为,以任何形式使用测试集中的信息都是一种「窥探」(peeking),因此他们建议封存测试集,直到模型调整全部完成再作为最后的评估。

模型窥探预留数据集是使用测试集选择并评估假设函数的后果。若要避免窥视,必须将测试集单独留出,直到模型学习过程完全结束,才能最终对模型假设进行独立的评估。(如果你对评估结果不满意,想返回寻找更好的模型假设,那么你必须获取并封存一组全新的测试集。)—Stuart Russell and Peter Norvig, page 709, Artificial Intelligence: A Modern Approach, 2009 (3rd edition)

重要的是,Russel 和 Norvig 认为用于模型拟合的训练数据集可以进一步划分成训练集和验证集。验证集是训练数据集的子集,用于对模型能力进行初步评估。

如果测试集被封存后,你仍想在未知数据上进行模型性能评估,来选择性能好的模型假设,那么你需要将可用数据(不包含测试集)分为训练集和验证集。—Stuart Russell and Peter Norvig, page 709,Artificial Intelligence: A Modern Approach, 2009 (3rd edition)

该领域的其他教科书级的著作也佐证了此定义。Ripley 的著作《模式识别与神经网络》(Pattern Recognition and Neural Networks)中的术语表就是一个经典实例。具体来说,训练集、验证集和测试集的定义如下:

训练集:用来学习的样本集,用于分类器参数的拟合。 验证集:用来调整分类器超参数的样本集,如在神经网络中选择隐藏层神经元的数量。 测试集:仅用于对已经训练好的分类器进行性能评估的样本集。 —Brian Ripley, page 354, Pattern Recognition and Neural Networks, 1996

这些是数据集推荐的定义和用法。重申 Ripley 的术语定义之后,让我们来继续讨论「测试集」和「验证集」在机器学习建模过程中的常见混淆。

机器学习相关文献通常颠倒「验证集」和「测试集」的意思。这是人工智能研究中最明显的术语混淆。关键在于,神经网络的文献对测试集的标准定义认为测试集不应用于选择两个或多个网络较好的那个,因此测试集上的误差才是泛化误差的无偏评估(假设测试集和实际总体服从同一分布)。—Subject: What are the population, sample, training set, design set, validation set, and test set?

训练数据集、验证数据集和测试数据集的定义

为了强调上文中专家的研究结果,本节为这三个术语提供明确的定义。

  • 训练数据集:用于模型拟合的数据样本。
  • 验证数据集:用于调整模型的超参数,为拟合后的模型提供无偏评估。如果模型配置中已包括在验证集上的调整,则该评估偏差会更大。
  • 测试数据集:为拟合后的最终模型提供无偏评估。

我们可以通过下列伪代码具体来看它们的定义:

# split data data = ... train, validation, test = split(data) # tune model hyperparameters parameters = ... for params in parameters: model = fit(train) skill = evaluate(model, validation) # evaluate final model for comparison with other models model = fit(train) skill = evaluate(model, test)

以下是额外需要理解的内容:

  • 验证数据集可能在其他形式的模型预准备中发挥作用,如特征选择。
  • 最终模型可以在训练数据集和验证数据集上进行拟合。

只有验证数据集远远不够

在未知数据上对模型性能进行评估还有其他方式。一个常见的实例是使用 K-折交叉验证(k-fold cross-validation)来调整模型超参数,而不是使用单独的验证数据集。Kuhn 和 Johnson 在「Data Splitting Recommendations」一章中指出使用单独的「测试集」(或验证集)的局限性。

如前所述,k 折交叉验证是一种足以取代单独、独立测试集的技术:

  • 测试集是对模型的单次评估,无法完全展现评估结果的不确定性。
  • 将大的测试集划分成测试集和验证集会增加模型性能评估的偏差。
  • 分割的测试集样本规模太小。
  • 模型可能需要每一个可能存在的数据点来确定模型值。
  • 不同测试集生成的结果不同,这造成测试集具备极大的不确定性。
  • 重采样方法可对模型在未来样本上的性能进行更合理的预测。

Max Kuhn 和 Kjell Johnson 等人还推荐了适用于小规模样本的 10-折交叉验证,其偏差低、性能评估变化小;他们还推荐适用于模型性能比较的自助法(bootstrap method),该方法性能评估变化小。对于规模稍大的样本集,他们同样推荐 10-折交叉验证方法。

验证数据集和测试数据集会淡化

很可能你再也不会在应用机器学习中看到训练数据集、验证数据集和测试数据集。

当实践者选择在训练数据集中使用 k-折交叉验证方法调整模型超参数时,「验证集」的概念就已经淡化了。

我们可以通过以下为代码具体来看:

# split data data = ... train, test = split(data) # tune model hyperparameters parameters = ... k = ... for params in parameters: skills = list() for i in k: fold_train, fold_val = cv_split(i, k, train) model = fit(fold_train, params) skill_estimate = evaluate(model, fold_val) skills.append(skill_estimate) skill = summarize(skills) # evaluate final model for comparison with other models model = fit(train) skill = evaluate(model, test)

结语

在本教程中,你会了解「验证数据集」和「测试数据集」中的很多谬误,以及在评估机器学习模型的能力时如何正确地区分这些术语。

具体来说:

  • 过去的专家学者已经对模型评估中「训练数据集」、「验证数据集」和「测试数据集」给出了明确定义。
  • 「验证数据集」主要用于调整超参数和数据准备时对模型进行评估,而「测试数据集」主要用于对比多个最终模型时的评估。
  • 如果采用 k-折交叉验证等重采样方法,尤其当重采样方法已经被嵌套在模型验证中时,「验证数据集」和「测试数据集」的概念可能会淡化。

原文链接:http://machinelearningmastery.com/difference-test-validation-datasets/

本文为机器之心原创,转载请联系本公众号获得授权。

✄------------------------------------------------

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-07-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CreateAMind

论文解读:生成模型采样-类比学习应用 多图

981
来自专栏人工智能头条

王晓刚:图像识别中的深度学习

2992
来自专栏AI派

【技术综述】你真的了解图像分类吗?

图像分类是计算机视觉中最基础的任务,基本上深度学习模型的发展史就是图像分类任务提升的发展历史,不过图像分类并不是那么简单,也没有被完全解决。

1691
来自专栏新智元

【干货】计算机视觉视频理解领域的经典方法和最新成果

1.2K2
来自专栏AI科技评论

机器学习算法在自动驾驶领域的应用大盘点!

AI科技评论按:本文原载于 kdnuggets,由林立宏、吴楚编译。 将汽车内外传感器的数据进行融合,借此评估驾驶员情况、进行驾驶场景分类,都要用到机器学习。本...

3505
来自专栏机器人网

10 个常见机器学习案例:了解机器学习中的线性代数

它是机器学习的重要基础,从描述算法操作的符号到代码中算法的实现,都属于该学科的研究范围。

1143
来自专栏专知

解开贝叶斯黑暗魔法:通俗理解贝叶斯线性回归

【导读】本文是悉尼大学博士生 Thushan Ganegedara 撰写的一篇博文,主要介绍贝叶斯线性回归的内在原理。我们知道,深度学习可以利用大规模数据产生很...

1.2K11
来自专栏机器之心

从自编码器到生成对抗网络:一文纵览无监督学习研究现状

选自Medium 机器之心编译 参与:Nurhachu、蒋思源、吴攀 无监督学习是深度学习的圣杯。它的目的是希望能够用极少量且不需要标注的数据训练通用系统。本文...

3969
来自专栏喔家ArchiSelf

全栈必备 贝叶斯方法

对一个全栈老码农而言,经常在开发或者研发管理的时候遇到各种预测、决策、推断、分类、检测、排序等诸多问题。面对“你的代码还有bug么?”这样的挑战,一种理智的回答...

1103
来自专栏新智元

Adobe 写实深度摄影风格迁移,局部仿射解决画面扭曲

【新智元导读】康奈尔大学和 Adobe 团队的这项图像风格迁移研究,解决了神经网络风格迁移中由于参考图像风格夸张而产生的的输出图像“扭曲”的问题,在各种场景下得...

3195

扫码关注云+社区

领取腾讯云代金券