开发集和测试集应该来自同一分布

6 开发集和测试集应该来自同一分布

根据市场情况,由于存在不同地区的用户,你可以把你的猫咪APP图片数据分为四个区域: (1) 美国 (2) 中国 (3) 印度 (4) 其它地区 为了生成一个开发集和测试集,你可能会随机的分配两个地区的数据到开发集中,另外两个作为测试集。比如:来自美国和印度的数据作为一类,来自中国和其它地区的数据作为另一类。

一旦你这样划分了数据集,你的团队可能会主要关注提高在开发集的上的性能。开发集应该能够正确的反映出你的整体情况,而不是局部情况。比如这里主要提升了APP在美国和印度区域的性能,而没有考虑到中国和其他地区。 其次,开发集和测试集如果来自不同分布还会导致另一个问题:你团队进行开发后会发现,算法在开发集(美国,印度)上的效果会非常好,但是到了测试集(中国,其它地区)上就会变得很差。我曾经看到过很多人都是因为这个问题导致白费了很多努力,所以我不希望这发生在你的身上。 举一个例子,假设你团队开发的系统在开发集上的效果非常好,但是在测试集上却表现的非常糟糕。如果你的开发集和测试集来自于同种分布,那么你可以立刻判断,你的算法在开发集上过拟合了。比较简单的解决办法是输入更多的数据进行算法性能提升。 但是如果开发集和测试集来自不同分布,那么你可能就比较不好找原因了,可能会出现以下错误:

  1. 你的算法在开发集上过拟合了
  2. 测试集比开发集更难识别,所以算法输出的结果可能就没预期那么好了,而且进行改进比较困难
  3. 测试集不一定比开发集更难识别,只是它们来自不同分布。所以在开发集上表示好的算法并不能在测试集上表现良好。(如,美国和印度猫咪的数据可能就无法反映出中国和其他区域猫咪的数据)这种情况下,你之前对算法进行改进的努力可能都白费了。

机器学习的应用本身是非常困难的。如果开发集和测试集还没有来自同一个分布,那么你将会浪费很多时间在你的算法上。甚至你不知道你该做什么,不该做什么。 如果你面对的是第三方基准测试(benchmark)的问题,可能开发集和测试集来源于不同的分布,这种时候只有运气对你算法产生的影响最大。当然,如果开发集和测试集在同一分布,那么你的算法应该能够很好的进行推广和拓展。如果你开发的应用是针对特定的方向的话,我建议在选择开发集和测试集的时候让它们在同一分布

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

人物 | Ian Goodfellow亲述GAN简史:人工智能不能理解它无法创造的东西

选自Wired 作者:Cade Metz 机器之心编译 参与:黄小天、蒋思源 著名物理学家、加州理工学院教授以及畅销书作者理查德·费曼( Richard Fey...

37911
来自专栏ATYUN订阅号

【业界】是什么推动了深度学习的“寒武纪大爆炸”?

准确地说,多伦多大学计算机科学家Alex Krizhevsky、Geoffrey Hinton和Ilya Sutskever都不知道他们要发布的是什么。那是20...

1265
来自专栏新智元

今日头条李磊:用机器学习做自然语言理解,实现通用 AI 仍需解决三大难题(33PPT下载)

1 新智元原创 【新智元导读】10月18日,在中国自动化学会与新智元联合主办的 2016世界人工智能大会上,今日头条科学家、头条实验室总监李磊博士受邀发表...

4416
来自专栏AI研习社

为什么吴恩达认为未来属于迁移学习?

AI研习社按:日前,知名 AI 博主、爱尔兰国立大学 NLP 博士生 Sebastian Ruder 以 “迁移学习:机器学习的下一个前线” 为题,对迁移学习的...

2843
来自专栏新智元

【Hacker News最火教程】机器学习必备的数学知识

【新智元导读】对于很多入坑机器学习的同学来说,数学可能是比较艰辛的部分。本文作者介绍了构建机器学习产品、或进行机器学习研究所需的数学背景,以及来自机器学习工程师...

681
来自专栏数据魔术师

周志华最新演讲:深度学习为什么深?有多好的人才,才可能有多好的人工智能

2227
来自专栏ATYUN订阅号

IBM的新系统可以自动选择最佳的AI算法

深度学习系统可以摄取数据,转换数据,输出数据并传递数据,但并非所有的都能等同。没有算法适用于每个任务,找到最佳的算法可能是一个漫长而令人沮丧的过程。幸运的是,I...

792
来自专栏钱塘大数据

吴恩达回答:深度学习的泡沫何时会破?

有人在 Quora 上问了一个匪夷所思的问题:“深度学习的泡沫何时会破?”在短短的十几个小时内,该问题就得到了 18 个回应,而且每个回应都颇有深度。下面的内容...

4135
来自专栏CreateAMind

浅析 Hinton 最近提出的 Capsule 计划

最近一次更新 17-09-22 15:00 (按中国时间计)。修复了一些笔误,加入了更多关于无监督学习的介绍内容,使思路更完整;以及一两句关于 Capsule ...

962
来自专栏应兆康的专栏

6. 开发集和测试集应该来自同一分布

根据市场情况,由于存在不同地区的用户,你可以把你的猫咪APP图片数据分为四个区域: (1) 美国 (2) 中国 (3) 印度 (4) 其它地区 为了生成一个开发...

35911

扫码关注云+社区

领取腾讯云代金券