6. 开发集和测试集应该来自同一分布

6 开发集和测试集应该来自同一分布

根据市场情况,由于存在不同地区的用户,你可以把你的猫咪APP图片数据分为四个区域: (1) 美国 (2) 中国 (3) 印度 (4) 其它地区 为了生成一个开发集和测试集,你可能会随机的分配两个地区的数据到开发集中,另外两个作为测试集。比如:来自美国和印度的数据作为一类,来自中国和其它地区的数据作为另一类。

一旦你这样划分了数据集,你的团队可能会主要关注提高在开发集的上的性能。开发集应该能够正确的反映出你的整体情况,而不是局部情况。比如这里主要提升了APP在美国和印度区域的性能,而没有考虑到中国和其他地区。 其次,开发集和测试集如果来自不同分布还会导致另一个问题:你团队进行开发后会发现,算法在开发集(美国,印度)上的效果会非常好,但是到了测试集(中国,其它地区)上就会变得很差。我曾经看到过很多人都是因为这个问题导致白费了很多努力,所以我不希望这发生在你的身上。 举一个例子,假设你团队开发的系统在开发集上的效果非常好,但是在测试集上却表现的非常糟糕。如果你的开发集和测试集来自于同种分布,那么你可以立刻判断,你的算法在开发集上过拟合了。比较简单的解决办法是输入更多的数据进行算法性能提升。 但是如果开发集和测试集来自不同分布,那么你可能就比较不好找原因了,可能会出现以下错误:

  1. 你的算法在开发集上过拟合了
  2. 测试集比开发集更难识别,所以算法输出的结果可能就没预期那么好了,而且进行改进比较困难
  3. 测试集不一定比开发集更难识别,只是它们来自不同分布。所以在开发集上表示好的算法并不能在测试集上表现良好。(如,美国和印度猫咪的数据可能就无法反映出中国和其他区域猫咪的数据)这种情况下,你之前对算法进行改进的努力可能都白费了。

机器学习的应用本身是非常困难的。如果开发集和测试集还没有来自同一个分布,那么你将会浪费很多时间在你的算法上。甚至你不知道你该做什么,不该做什么。 如果你面对的是第三方基准测试(benchmark)的问题,可能开发集和测试集来源于不同的分布,这种时候只有运气对你算法产生的影响最大。当然,如果开发集和测试集在同一分布,那么你的算法应该能够很好的进行推广和拓展。如果你开发的应用是针对特定的方向的话,我建议在选择开发集和测试集的时候让它们在同一分布

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏美团技术团队

机器学习中模型优化不得不思考的几个问题

? 图1 机器学习工程师的知识图谱 图1列出了我认为一个成功的机器学习工程师需要关注和积累的点。机器学习实践中,我们平时都在积累自己的“弹药库”:分类、回归、...

3695
来自专栏云加头条

王磊:AI 时代物流行业的 OCR 应用

OCR 是人工智能里面非常重要的基础能力之一。腾讯云人工智能产品总监王磊,结合物流场景解读了OCR技术。“OCR文本识别能够优化物流行业流程,解放人力降低成本。...

9149
来自专栏CreateAMind

浅析 Hinton 最近提出的 Capsule 计划

最近一次更新 17-09-22 15:00 (按中国时间计)。修复了一些笔误,加入了更多关于无监督学习的介绍内容,使思路更完整;以及一两句关于 Capsule ...

922
来自专栏新智元

吴恩达谈深度学习:数据科学家需要知道的

【新智元导读】数据科学家需要什么深度学习知识?吴恩达 (Andrew Ng)用机器看图说话,机器问答等实例告诉大家。本文是吴恩达在2015年12月在Extrac...

3217
来自专栏新智元

今日头条李磊:用机器学习做自然语言理解,实现通用 AI 仍需解决三大难题(33PPT下载)

1 新智元原创 【新智元导读】10月18日,在中国自动化学会与新智元联合主办的 2016世界人工智能大会上,今日头条科学家、头条实验室总监李磊博士受邀发表...

4316
来自专栏大数据文摘

深度 | 深度学习并不是AI的未来

1744
来自专栏AI科技评论

全文|旷视科技孙剑:如何在大公司和创业公司做好计算机视觉的研究?

孙剑,博士,旷视科技(Face++)首席科学家、研究负责人。2003年毕业于西安交通大学人工智能与机器人研究所,毕业后加入微软亚洲研究院(Microsoft R...

4998
来自专栏机器之心

人物 | Ian Goodfellow亲述GAN简史:人工智能不能理解它无法创造的东西

选自Wired 作者:Cade Metz 机器之心编译 参与:黄小天、蒋思源 著名物理学家、加州理工学院教授以及畅销书作者理查德·费曼( Richard Fey...

37111
来自专栏ATYUN订阅号

IBM的新系统可以自动选择最佳的AI算法

深度学习系统可以摄取数据,转换数据,输出数据并传递数据,但并非所有的都能等同。没有算法适用于每个任务,找到最佳的算法可能是一个漫长而令人沮丧的过程。幸运的是,I...

762
来自专栏应兆康的专栏

开发集和测试集应该来自同一分布

901

扫码关注云+社区

领取腾讯云代金券