假设我将我的数据分割成80%的训练和20%的测试/验证,我想标准化它,我认为我说我不应该对100%的数据进行标准化,然后进行分割,因为这样验证就可以洞察培训数据了吗?
我不确定我是否也应该
1)对80%的训练数据生成均值和标准差统计,然后应用相同的均值/标准差对验证数据进行标准化处理。
或2)标准化培训数据,然后对验证数据进行标准化,即从80%的培训数据中提取均值和SD值,然后对20%的验证数据分别求出均值/SD值。
非常感谢
发布于 2018-12-27 06:53:17
是的,测试数据可能包含一些您没有从测试集中学到的重要内容。不,你不能用测试集来学习。
测试集的目的是了解系统在培训期间未见的新数据上的行为。将你的定标器安装在测试集中就会达到这个目的。
1)对80%的训练数据生成均值和标准差统计,然后应用相同的均值/标准差对验证数据进行标准化处理。
这就是你该做的。
或2)标准化培训数据,然后对验证数据进行标准化,即从80%的培训数据中提取均值和SD值,然后对20%的验证数据分别求出均值/SD值。
这是有效的,如果你的生产系统是这样的。因此,如果您在批中获取数据并对批进行规范化,也可能会很好。
https://datascience.stackexchange.com/questions/38820
复制相似问题