2.4 在不同分布上训练和测试数据
在深度学习时代,越来越多的团队使用和开发集/测试集不同分布的数据来训练模型.下面解释一些方法来处理训练集和测试集存在差异的情况....Solution1
将 20W 张高清图片与 1W 张用户手机上传的模糊图片混合,随机分配到训练,开发和测试集中.假设你已经确定开发集和测试集中各包含 2500 个样本,训练集包括 205000 个样本...Example2
假设你要开发一个智能语音汽车后视镜,你现在有很多语音数据,但是这些都不是来自智能语音后视镜的.下面解释如何来分配训练集,开发集和测试集.....
2.5 不匹配分布的偏差和方差
对于训练集和开发/测试集来自不同的分布的情况而言,我们计算偏差和方差的方法不同....分别将分类器在训练集/训练-开发集/开发集上运行,获取其准确率信息
分类器在训练集和训练开发集上误差差距较小,这表明分类器本身方差不大
分类器在训练-开发集和开发集上误差差距很大,表明算法误差的差距主要由于数据不匹配导致的