类别 | 验证集 | 测试集 |
---|---|---|
是否被训练到 | 否 | 否 |
作用 | 纯粹用于调超参数 | 纯粹为了加试以验证泛化性能 |
使用次数 | 多次使用,以不断调参 | 仅仅一次使用 |
缺陷 | 模型在一次次重新手动调参并继续训练后所逼近的验证集,可能只代表一部分非训练集,导致最终训练好的模型泛化性能不够 | 测试集为了具有泛化代表性,往往数据量比较大,测试一轮要很久,所以往往只取测试集的其中一小部分作为训练过程中的验证集 |
互相转化 | 验证集具有足够泛化性(一般来说,如果验证集足够大到包括大部分非训练集时,也等于具有足够泛化性了) | 验证集具有足够泛化性时,测试集就没有存在的必要了 |
类比 | 校内答辩(如果校内答辩比多校联合答辩还有泛化性说服力,那么就没有必要再搞个多校联合答辩了) | 多校联合公开答辩 |
说到底: