文章/答案/技术大牛

发布

社区首页 >问答首页 >机器学习中测试和验证集标签的混淆

问机器学习中测试和验证集标签的混淆
EN

Stack Overflow用户

提问于 2018-09-20 10:48:24

回答 2查看 2.9K关注 0票数 0

关于数据集的培训和验证，我有一个问题。

我理解培训数据标签的概念，即y_train。我不明白的是，为什么我们的测试/验证样本也应该有标签。我假设，通过给测试样本贴上标签，我们在通过算法之前定义了它们是什么，对吗？

让我这样说，如果我有狗和猫的图片数据集，我分别给它们加上1和2的标签。那么，如果我想抛出一张图片(狗)来测试我的模型(这不在我的训练数据集中)，我为什么要给它贴上标签？如果我给它贴上1的标签，那么我事先告诉它它是一只狗，如果我给它贴上2的标签，那它就已经是一只猫了。

我可以有一个没有标签的测试/验证数据集吗？

deep-learning

machine-learning

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-09-20 10:59:43

验证数据集用于细化模型中的参数，而测试集用于检查准确性。没有标签，如何才能声称你的模型的正确性。这个概念在监督学习中是有效的，因此需要有带有测试和验证数据集的标签。

票数 1

Stack Overflow用户

发布于 2018-09-20 11:04:46

正如测试集的名称所暗示的那样，测试集的目的是在培训期间未见的数据中测试模型的性能。为了获得这个性能指标，你当然需要有已知标签的数据，以便将这些标签(基本真实值)与相应的模型预测进行比较，并得出模型性能的某种定量度量(例如准确性)--如果测试集中没有这些标签，你肯定无法做到这一点。

如果我想扔一张照片(狗)来测试我的模型，我为什么要给它贴标签呢？如果我给它贴上1的标签，那么我事先告诉它它是一只狗，如果我给它贴上2的标签，那它就已经是一只猫了。

您在这里非常松散地使用了" test“这个术语--在测试集的上下文中，这不是它的意思(我刚才描述了这个上下文)。还请注意，测试标签是可用的，这并不意味着模型在预测期间使用它们(它们当然不是-它们仅用于与模型预测的比较，如上文所述)。另外，你指的是一个非常具体的问题(猫/狗)对人类观察者来说是显而易见的--试着使用同样的理由--例如，在基因组学问题中，或者在一个要求对房价进行数字预测的问题中，你会发现情况并不是那么简单和简单(你能不能只看一排数字就能说出一套房子的价格？)

对于验证集也是如此，这里的目标是不同的(即不是模型评估，而是模型调优)。

诚然，有些人使用“测试数据”一词来表示任何看不见的数据，但这是不正确的；在使用培训、验证和测试集构建和评估您的模型之后，您可以使用新的和显然看不见的数据来部署它，对于这些数据，它肯定不会知道标签.

关于这个主题有几十个在线教程，因此可以说，这类问题并不是最合适的论坛--我只是希望我已经给了你们一个好的--足够的一般性想法……

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52423386

复制

相似问题

问机器学习中测试和验证集标签的混淆
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问机器学习中测试和验证集标签的混淆EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问机器学习中测试和验证集标签的混淆
EN