Example1
假设你要开发一个识别猫的机器学习系统,其中 需要识别的是用户手机上传的猫的图片 这些图片往往清晰度低,取景不专业,识别度低.由于用户量少的缘故,这些图片量很少,只有大约 1W 张.但是从网上可以下载大量清晰度高....
2.5 不匹配分布的偏差和方差
对于训练集和开发/测试集来自不同的分布的情况而言,我们计算偏差和方差的方法不同....Notics
算法只见过训练集数据,没见过开发集数据
开发集数据来自不同的分布
需要辨清开发集上的误差有多少是来自算法没看到开发集中的数据导致的,多少是因为开发集数据分布本身就不一样<数据不匹配...分别将分类器在训练集/训练-开发集/开发集上运行,获取其准确率信息
分类器在训练集和训练开发集上误差差距较小,这表明分类器本身方差不大
分类器在训练-开发集和开发集上误差差距很大,表明算法误差的差距主要由于数据不匹配导致的...2.6 定位数据不匹配
如果你的训练集和开发/测试集来自不同的数据分布,并且误差分析的结果表明你有一个数据不匹配的问题,这个问题没有标准的解决方案,但是我们可以尝试一些可以做的事情.