17. 如果你有一个很大的开发集,把它分为两个子集,只着眼于其中一个

17. 如果你有一个很大的开发集,把它分为两个子集,只着眼于其中一个

假设你有一个含有5000个样本的大型开发集,其中有20%的错误率。这样,算法对约1000个图片进行错误分类。手动检查1000张图片是非常耗费时间的, 所以我们可能决定在错误分析中不使用所有的图片。 在这种情况下, 我会明确的将开发集分为两个子集,只看其中一个子集,另一个不看。你可能会在你查看的那部分数据中过拟合,此时你可以使用那部分未使用的数据来进行调参。

继续上面的例子,在该例子中算法错误分类5000个开发集样本中的1000个。假设我们想手动检查约100个错误样本(错误分类的10%)进行分析。你应该随机选择10%的开发集,并将其放入我们称之为Eyeball开发集(Eyeball dev set)中,以提醒我们正在使用它。(对于语音识别项目,你的数据集为语音,你需要一个一个听它们,你可以将它们称为Ear dev set)。因此,Eyeball开发集有500个样本,其中我们预计算法会错误分类约100个。 开发集的第二个子集叫做Balckbox开发集(Blackbox dev set),它将拥有剩下的4500个样本。你可以使用Blackbox开发集,通过测量它们的错误率来自动评估分类器。也可以使用它来选择算法或调整参数。但是,你应该避免使用它。我们使用“Blackbox”术语是因为我们只使用数据集的子集来获得分类器的“Blackbox”评估。

为什么我们将开发集明确的分为Eyeball开发集和Blackbox开发集呢?如果你使用Eyeball进行开发的话,你的算法可能会过拟合。如果你发现Eyeball开发集比Blackbox开发集性能提升的更快,你已经过拟合Eyeball开发集。在这种情况下,你可能需要一个新的Eyeball开发集,将更多Blackbox开发集中的样本移至Eyeball中。也可以通过获取新的标注数据来获得。 将开发集明确分为Eyeball和Blackbox然后手动误差分析可以让你知道何时在Eyeball上导致过拟合。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

ICLR 2018 | 斯坦福大学教授Christopher Manning提出全可微神经网络架构MAC:可用于机器推理

选自arXiv 作者:Drew A. Hudson、Christopher D. Manning 机器之心编译 参与:刘天赐、黄小天 现今,神经网络已在图像识别...

35280
来自专栏ATYUN订阅号

谷歌新技术:神经优化器搜索,自动找到可解释的优化方法

AiTechYun 编辑:yuxiangyu 如今,深度学习模型已经部署在众多谷歌产品中,如搜索、翻译和照片等。而在训练深度学习模型时,优化方法的选择至关重要。...

37370
来自专栏机器之心

教程 | 22分钟直冲Kaggle竞赛第二名!一文教你做到

选自微软机器学习博客 机器之心编译 参与:陈韵竹、路雪 本文介绍了如何使用微软 DVSM、利用迁移学习技术在 20 多分钟时间内达到 Kaggle 猫狗识别竞赛...

46880
来自专栏有趣的Python和你

Python数据分析之数据清洗

数据清洗,是数据分析中不可缺少的一个环节,其处理的好坏在很大程度上影响着数据分析的结果。而且以前听老师说过数据清洗占整个的数据分析的一半时间以上(汗。。。数据清...

17330
来自专栏机器学习算法与Python学习

【干货】深度学习知识体系思维导图,一图让你理解所有概念【高清下载】

深度学习是基于学习数据表示的更宽泛的机器学习方法家族的一部分,而不是特定某一种任务的算法。深度学习过程中可以有监督、半监督或无监督来进行。我们在这里试图在一个....

53920
来自专栏量子位

Tensorflow官方语音识别入门教程 | 附Google新语音指令数据集

李林 编译整理 量子位 报道 | 公众号 QbitAI Google今天推出了一个语音指令数据集,其中包含30个词的65000条语音,wav格式,每条长度为一秒...

98180
来自专栏小小挖掘机

推荐系统遇上深度学习(二十七)--知识图谱与推荐系统结合之RippleNet模型原理及实现

依次训练的方法主要有:Deep Knowledge-aware Network(DKN) 联合训练的方法主要有:Ripple Network 交替训练主要采用m...

32730
来自专栏云时之间

机器学习算法推导「代码已经更新」

在重新实现机器学习算法时,重新认识到理论和数学的可理解性,通过非常简单的编程就可以实现BP、Lagrange multiplier、Newton's metho...

36470
来自专栏量子位

谷歌开源集成学习工具AdaNet:2017年提出的算法终于实现了

最近,谷歌在GitHub上发布了用TensorFlow实现的AutoML框架——AdaNet,它改进了集成学习的方法,能以最少的专家干预实现自动习得高质量模型。...

12120
来自专栏新智元

分布式深度学习框架PK:Caffe-MPI, CNTK, MXNet ,TensorFlow性能大比拼

作者:施少怀 褚晓文 编译:弗格森 马文 【新智元导读】这篇论文评估了四个state-of-the-art 的分布式深度学习框架,即Caffe-MPI, C...

57770

扫码关注云+社区

领取腾讯云代金券