所以我把自己搞糊涂了。
目前,我已经获得了大约800个实例的数据集。我将其拆分为训练集和验证集,因为缺少值,所以我使用sklearn中的SimpleImputer,并对训练集进行fit_transform-ed,然后对测试集进行转换。我这样做是因为如果我想预测新的实例,如果有缺失值,那么我需要用我估算测试集的方法来估算它。
现在我想使用交叉验证来训练和评分模型,但这将涉及到使用整个数据集并将其划分为不同的训练集和测试集,因此我担心由于拟合输入值而导致训练集中的泄漏?
发布于 2018-12-18 10:37:04
通常,您会希望将数据分成三个集-训练集、测试集和验证集。测试集应该完全排除在训练之外(您的担忧是正确的)。使用交叉验证时,您不需要担心将训练集和验证集分开-这就是交叉验证为您做的事情!只需将训练集传递给交叉验证器,允许它在幕后分为训练和验证,并在您的测试集上测试最终的模型(这完全被排除在训练过程之外)。
https://stackoverflow.com/questions/53825586
复制相似问题