开发集和测试集应该多大?

7 开发集和测试集应该多大?

开发集应该足够大,大到可以检测出不同算法之间的差异。比如:如果分类器A的精度为90.0%,分类器B精度为90.1%。如果你的开发集只有100条,那么你可能检测不出这0.1%的差异,与其它机器学习的问题相比,100条数据很小,常见的开发集数据规模在1000到10000条之间。数据量越高,模型之间的差异越明显。[2]

对于一些成熟的重要应用来说(如:广告推荐,网页推荐,产品推荐等)。我经常看到团队在为0.01%的性能提升而奋斗,因为这直接影响到了公司的利润。在这种情况下,开发集的数据量可能远远超过10000条,只为了对算法进行改进。

测试集要多大?它也应该足够大,大到你有一个很高自信度去对系统的整体性能进行评估。这里有一个方法:将30%的数据用于测试。在你拥有一个中等(100到10000个样本)数据量的情况下,它的效果不错。但是在大数据的时代下,我们面对的机器学习问题数据量可能会超过10亿条样本,开发集与测试集之间的比例一直在减小,但是开发与测试集的绝对数量在增加。在给开发集和数据集分配时,没必要过多的进行分配。

[2] 理论上,如果一个算法的变化差异符合统计学上的某种变化,那么我们可以进行测试。在实践中,大多数团队都会这样做(除非它们发表论文)。而我没有发现用于统计意义上的测试。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏应兆康的专栏

7. 开发集和测试集应该多大?

开发集应该足够大,大到可以检测出不同算法之间的差异。比如:如果分类器A的精度为90.0%,分类器B精度为90.1%。如果你的开发集只有100条,那么你可能检测不...

3557
来自专栏机器之心

业界 | 自动捕捉高光时刻:谷歌展示Google Clips全新智能摄影技术

1953
来自专栏机器之心

学界 | 哈佛大学提出在云、边缘与终端设备上的分布式深度神经网络DDNN

选自arXiv 机器之心编译 参与:李亚洲 近年来,深度神经网络在多种应用上取得了极大的成功,网络架构也变得越来越深。以卷积神经网络为例,从 1998 年 Le...

4047
来自专栏机器之心

学界 | 定量研究:当前机器学习领域十大研究主题

选自arXiv 作者:Patrick Glauner等 机器之心编译 参与:韩小西、李泽南 机器学习的发展日新月异,目前最热门的研究方向是什么?近日,来自卢森堡...

2643
来自专栏机器之心

机器学习中的数学,这是一份新鲜出炉的热门草稿

作者:Marc Peter Deisenroth、A Aldo Faisal、Cheng Soon Ong

1394
来自专栏AI科技大本营的专栏

重磅|Facebook放大招,训练时间1周降至1天,AI工程师高呼终于等到这一天

作者 | 鸽子 随着深度学习在各行各业的应用日趋成熟,应用范围越来越多元,AI工程师也开始头疼起来: 数据量越来越多,需要应对的场景越来越细分,模型的训练求越...

35710
来自专栏奇点大数据

2018年度人工智能技术趋势

“人工智能”一词最初是在1956 年Dartmouth学会上提出的。人工智能(Artificial Intelligence),英文缩写为AI,是研究、开发用于...

1182
来自专栏文智的专栏

【 文智背后的奥秘 】系列篇 :情感分类

情感分类是对带有感情色彩的主观性文本进行分析、推理的过程,即分析对说话人的态度,倾向正面,还是反面。它与传统的文本主题分类又不相同,传统主题分类是分析文本讨论的...

2.5K1
来自专栏人工智能快报

Hinton取得新进展,以更少数据识别图像

谷歌人工智能先驱Geoffrey Hinton公布了AI技术进展,可提高电脑正确识别图像的速度和较少的数据依赖。 Google公司公布了关于其人工智能先驱Geo...

3206
来自专栏AI科技评论

学界 | MIT CSAIL最新研究:Network Dissection可全自动内窥神经网络活动过程

AI科技评论按:据外媒TechCrunch最新报道,MIT CSAIL(麻省理工学院计算机科学与人工智能实验室)发明了一种可以全自动内窥神经网络活动的系统Net...

29410

扫码关注云+社区

领取腾讯云代金券