关于数据集的培训和验证,我有一个问题。
我理解培训数据标签的概念,即y_train。我不明白的是,为什么我们的测试/验证样本也应该有标签。我假设,通过给测试样本贴上标签,我们在通过算法之前定义了它们是什么,对吗?
让我这样说,如果我有狗和猫的图片数据集,我分别给它们加上1和2的标签。那么,如果我想抛出一张图片(狗)来测试我的模型(这不在我的训练数据集中),我为什么要给它贴上标签?如果我给它贴上1的标签,那么我事先告诉它它是一只狗,如果我给它贴上2的标签,那它就已经是一只猫了。
我可以有一个没有标签的测试/验证数据集吗?
发布于 2018-09-20 10:59:43
验证数据集用于细化模型中的参数,而测试集用于检查准确性。没有标签,如何才能声称你的模型的正确性。这个概念在监督学习中是有效的,因此需要有带有测试和验证数据集的标签。
发布于 2018-09-20 11:04:46
正如测试集的名称所暗示的那样,测试集的目的是在培训期间未见的数据中测试模型的性能。为了获得这个性能指标,你当然需要有已知标签的数据,以便将这些标签(基本真实值)与相应的模型预测进行比较,并得出模型性能的某种定量度量(例如准确性)--如果测试集中没有这些标签,你肯定无法做到这一点。
如果我想扔一张照片(狗)来测试我的模型,我为什么要给它贴标签呢?如果我给它贴上1的标签,那么我事先告诉它它是一只狗,如果我给它贴上2的标签,那它就已经是一只猫了。
您在这里非常松散地使用了" test“这个术语--在测试集的上下文中,这不是它的意思(我刚才描述了这个上下文)。还请注意,测试标签是可用的,这并不意味着模型在预测期间使用它们(它们当然不是-它们仅用于与模型预测的比较,如上文所述)。另外,你指的是一个非常具体的问题(猫/狗)对人类观察者来说是显而易见的--试着使用同样的理由--例如,在基因组学问题中,或者在一个要求对房价进行数字预测的问题中,你会发现情况并不是那么简单和简单(你能不能只看一排数字就能说出一套房子的价格?)
对于验证集也是如此,这里的目标是不同的(即不是模型评估,而是模型调优)。
诚然,有些人使用“测试数据”一词来表示任何看不见的数据,但这是不正确的;在使用培训、验证和测试集构建和评估您的模型之后,您可以使用新的和显然看不见的数据来部署它,对于这些数据,它肯定不会知道标签.
关于这个主题有几十个在线教程,因此可以说,这类问题并不是最合适的论坛--我只是希望我已经给了你们一个好的--足够的一般性想法……
https://stackoverflow.com/questions/52423386
复制相似问题