我不能用“是”或“否”来回答你，所以让我从你所有的列车/测试/开发集上的数据分发开始。根据Prof.Andrew ng，测试和开发集应该来自相同的分布(YouTube)，但是训练集可以来自不同的分布(在这里查一下)，这通常是一件好事。有时候清理训练集是非常有用的，也适用于加速训练过程的一些基本操作(比如标准化，而不是清理)，但是我们谈论的训练数据可以而且应该有成千上万的例子，所以有时你不能手动检查和清理数据，因为它可能根本不值得，我什么意思？让我给你们举个例子：

假设你是一个猫分类器(猫或不猫)，你的准确率为90%，这意味着你有10%的错误。在进行错误分析(在这里查一下)之后，您会发现：

6%的错误是由错误标记的图像引起的(无猫图像)。标记为cat，反之亦然)。
44%是由模糊图像引起的。
50%是由被贴上猫标签的大猫的图像引起的。在这种情况下，您将花费所有的时间修复错误标记的图像将提高您在最佳场景中的性能(0.6%) (因为它比整个10%的错误高出6% )，因此IT不值得纠正错误标记数据。

我给出了一个错误标记数据的例子，但总的来说，我指的是任何类型的清洁和修复。

但是清理测试集中的数据可能更容易，如果可能的话，应该同时对/Dev集执行，因为测试集将反映系统在实时数据上的性能。您在问题中提到的操作并不是很干净，而是用于加快学习过程或使数据成为算法的基础，应用这些操作取决于数据的形状和类型(图像、语音记录、单词.)，以及您试图解决的问题。

最后，作为回答，我可以告诉你们：

在这三组数据中，数据的形式和形状应该是相同的(因此，应用标签编码应该是针对整个数据，而不仅仅是对培训数据，以及用于预测的输入数据，因为它改变了输出标签的形状)。
功能的数量应该总是相同的。
任何更改(形状、形式、功能数量、.)的操作。应用于数据应该应用于您要在系统中使用的每一个样本。

票数 1

Stack Overflow用户

发布于 2020-02-25 10:35:20

这取决于：

数据规范化:如果您将培训数据规范化，那么是的，以规范化培训数据的方式对测试数据进行规范化。但是，请注意，不要重新调整任何参数，您调整了培训数据。

填充缺失值:同上。将测试数据视为培训数据，但不要重新调整任何参数。

移除离群点:可能不会。测试集的目的是对您的模型在未见数据上的性能进行估计。因此，清除离群点可能不是一个好主意。

一般情况下:只对测试数据执行在应用模型时也可以/将对未见数据执行的操作。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/60392255

复制

相似问题

问这对清理测试数据很重要吗？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问这对清理测试数据很重要吗？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问这对清理测试数据很重要吗？
EN