在培训数据中,我做了特色工程和清理我的数据。这对测试数据也很重要吗?我知道一些基本的修改,如标签编码,依赖/独立的特征分割,等等。测试数据也是必需的。但是,在进行预测之前,我们真的需要清理测试数据吗?
发布于 2020-02-25 12:22:36
我不能用“是”或“否”来回答你,所以让我从你所有的列车/测试/开发集上的数据分发开始。根据Prof.Andrew ng,测试和开发集应该来自相同的分布(YouTube),但是训练集可以来自不同的分布(在这里查一下),这通常是一件好事。有时候清理训练集是非常有用的,也适用于加速训练过程的一些基本操作(比如标准化,而不是清理),但是我们谈论的训练数据可以而且应该有成千上万的例子,所以有时你不能手动检查和清理数据,因为它可能根本不值得,我什么意思?让我给你们举个例子:
假设你是一个猫分类器(猫或不猫),你的准确率为90%,这意味着你有10%的错误。在进行错误分析(在这里查一下)之后,您会发现:
我给出了一个错误标记数据的例子,但总的来说,我指的是任何类型的清洁和修复。
但是清理测试集中的数据可能更容易,如果可能的话,应该同时对/Dev集执行,因为测试集将反映系统在实时数据上的性能。您在问题中提到的操作并不是很干净,而是用于加快学习过程或使数据成为算法的基础,应用这些操作取决于数据的形状和类型(图像、语音记录、单词.),以及您试图解决的问题。
最后,作为回答,我可以告诉你们:
发布于 2020-02-25 10:35:20
这取决于:
数据规范化:如果您将培训数据规范化,那么是的,以规范化培训数据的方式对测试数据进行规范化。但是,请注意,不要重新调整任何参数,您调整了培训数据。
填充缺失值:同上。将测试数据视为培训数据,但不要重新调整任何参数。
移除离群点:可能不会。测试集的目的是对您的模型在未见数据上的性能进行估计。因此,清除离群点可能不是一个好主意。
一般情况下:只对测试数据执行在应用模型时也可以/将对未见数据执行的操作。
https://stackoverflow.com/questions/60392255
复制相似问题