7. 开发集和测试集应该多大?

7 开发集和测试集应该多大?

开发集应该足够大,大到可以检测出不同算法之间的差异。比如:如果分类器A的精度为90.0%,分类器B精度为90.1%。如果你的开发集只有100条,那么你可能检测不出这0.1%的差异,与其它机器学习的问题相比,100条数据很小,常见的开发集数据规模在1000到10000条之间。数据量越高,模型之间的差异越明显。[2]

对于一些成熟的重要应用来说(如:广告推荐,网页推荐,产品推荐等)。我经常看到团队在为0.01%的性能提升而奋斗,因为这直接影响到了公司的利润。在这种情况下,开发集的数据量可能远远超过10000条,只为了对算法进行改进。

测试集要多大?它也应该足够大,大到你有一个很高自信度去对系统的整体性能进行评估。这里有一个方法:将30%的数据用于测试。在你拥有一个中等(100到10000个样本)数据量的情况下,它的效果不错。但是在大数据的时代下,我们面对的机器学习问题数据量可能会超过10亿条样本,开发集与测试集之间的比例一直在减小,但是开发与测试集的绝对数量在增加。在给开发集和数据集分配时,没必要过多的进行分配。

[2] 理论上,如果一个算法的变化差异符合统计学上的某种变化,那么我们可以进行测试。在实践中,大多数团队都会这样做(除非它们发表论文)。而我没有发现用于统计意义上的测试。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | 定量研究:当前机器学习领域十大研究主题

选自arXiv 作者:Patrick Glauner等 机器之心编译 参与:韩小西、李泽南 机器学习的发展日新月异,目前最热门的研究方向是什么?近日,来自卢森堡...

2603
来自专栏应兆康的专栏

12. 小结:建立开发集和测试集

• 从分布中选择开发集和测试集 ,它需要反映你将来的数据情况,并且它的效果足够好,这可能与训练的数据不在同一分布。

30910
来自专栏AI派

近邻推荐之 Slope One 算法

使用 Slope One 算法可以避免上面的问题,Slope One 算法专门针对评分矩阵进行计算,不适用于行为矩阵。它不是计算物品之间的相似度,而是计算物品之...

4439
来自专栏机器之心

机器学习中的数学,这是一份新鲜出炉的热门草稿

作者:Marc Peter Deisenroth、A Aldo Faisal、Cheng Soon Ong

1334
来自专栏AI科技大本营的专栏

重磅|Facebook放大招,训练时间1周降至1天,AI工程师高呼终于等到这一天

作者 | 鸽子 随着深度学习在各行各业的应用日趋成熟,应用范围越来越多元,AI工程师也开始头疼起来: 数据量越来越多,需要应对的场景越来越细分,模型的训练求越...

35410
来自专栏AI科技大本营的专栏

课程 | 8小时搞定机器学习之概率与统计推断

还记得我们的《XGBoost从基础到实战》吗?没错,我们的美女老师冒老师要开新课啦~~~专门为你排忧解难,解决各大数学问题——《机器学习之概率与统计推断》在等你...

3288
来自专栏marsggbo

通俗理解决策树中的熵&条件熵&信息增益

参考通俗理解决策树算法中的信息增益 说到决策树就要知道如下概念: 熵:表示一个随机变量的复杂性或者不确定性。 假如双十一我要剁手买一件衣服,但是我一直犹豫...

2357
来自专栏CVer

381页机器学习数学基础PDF下载

【导读】近期,由Marc Peter Deisenroth,A Aldo Faisal和Cheng Soon Ong撰写的《机器学习数学基础》“Mathemat...

2013
来自专栏AI科技评论

技术大牛带你走向机器学习“正道”:小朋友才迷信算法,大人们更重视工程实践

AI科技评论按:“算法”这两字在人工智能圈已然成为“高大上”的代名词,由于不少在校生和职场新人对它过度迷恋,多名 AI 资深人士均对这一现象表示担忧。李开复曾这...

3603
来自专栏机器之心

学界 | 哈佛大学提出在云、边缘与终端设备上的分布式深度神经网络DDNN

选自arXiv 机器之心编译 参与:李亚洲 近年来,深度神经网络在多种应用上取得了极大的成功,网络架构也变得越来越深。以卷积神经网络为例,从 1998 年 Le...

3927

扫码关注云+社区

领取腾讯云代金券