所以为了方便起见,我们直接使用scikit-learn的数据集。..., 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])3.2 数据集划分 数据集拆分是为了验证模型在训练集和测试集是否过拟合...,使用train_test_split的目的是保证从数据集中均匀拆分出测试集。...首先,在训练集中划分出不参与训练的验证集,只是在模型训练完成以后对模型进行评估,接着再在测试集上进行最后的评估。 但这样大大减少了可用于模型学习的样本数量,所以还需要采用交叉验证的方式多训练几次。...比如说最常用的k-折交叉验证如下图所示,它主要是将训练集划分为 k 个较小的集合。然后将k-1份训练子集作为训练集训练模型,将剩余的 1 份训练集子集作为验证集用于模型验证。