找到甜草莓，总共分几步？

文章来源：企鹅号 - KnowingAI知智

训练一个能分辨草莓甜不甜的机器人，总共分几步？

训练集是什么？验证集是什么？

测试集又是什么？

不用很麻烦很累，点击观看下方视频，

你对人工智能的认知就能轻松超过全世界 99% 的人类！

在了解机器学习的过程中，我们常常会听到训练集（train set），验证集（validation set）和测试集（test set）这三个关于数据集的词汇，它们分别代表什么，有什么作用？

在机器学习中，训练模型前我们往往会将收集到的原始数据分为独立的三部分。

其中，训练集用来构建模型。在得到多个模型后，需要验证集找到其中的最优模型。

最后，使用测试集检验最优模型的性能，确保其真实可用。

简单来说，我们先用 6 个草莓训练几个可以判断草莓甜不甜的机器人，训练之后再用两个草莓去测试他们的情况，将其中判断最准确的机器人留下。

最后再拿出两个它从来没见过的草莓，再次检验它的性能。

一般来说，训练集、验证集、测试集的划分比例在3:1:1左右。

为什么要将原始数据分为独立的三部分？

还记得上一期提到的过拟合吗？

如果使用所有的原始数据训练模型，当新样本出现时，这个模型很可能无法正确的预测它们。

为了防止这种情况出现，人们设定了这三部分数据集。

「知智一分钟」是由「KnowingAI知智」推出的，以人工智能基础知识为主的短视频栏目。

每次一分钟，轻松了解 AI 领域基础概念！

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货