11. 什么时候更改开发/测试集和评估指标

11. 什么时候更改开发/测试集和评估指标

当开始一个新项目的时候,我会试图快速的选择开发/测试集,因为这样可以给团队一个很明确的目标。 我通常会要求我的团队在不到一周的时间内(几乎不会超过这个时间)提供一个初始的开发/测试集和评估指标,并且提出一个不太完美的方案迅速行动起来,这比花更多的时间去思考更好。但在一些比较成熟的应用上,一周时间可能不够,比如:反垃圾邮件(anti-spam)是一个成熟的深度学习应用。我见过一些团队会花费数月的时间在已完成的成熟系统上,去获得更好的开发集/测试集。 如果之后发现你最初的开发/测试集或评价指标与目标有些偏差,那么请修改它们。例如:如果你的开发集和评估指标在分类器A上表现的效果比B好,但是你的团队认为B在实际的产品中表现的更加优越,这可能表示你需要重新更改你的开发/测试集或者你的评价指标。 有三个主要原因导致开发集或评估指标错误的认为分类器A的效果更好: 1. 你的实际数据与开发数据来自不同分布. 假设你的初始开发/测试集主要是一些成年猫咪的图片。而在APP上,用户上传了比预期多得多的幼年猫咪图片。所以导致你的开发集与测试集不在同一分布。在这种情况下,更新数据集是最好的选择。

  1. 算法在开发集上过拟合了 你把你的评估标准设置的过高,在开发集上反复评估导致算法过拟合,当完成开发后,如果你的算法在开发集上的效果明显高于在测试集上的效果,这就意味着你的算法在开发集上过拟合了。这种情况下,更新你的开发集。如果你需要跟踪团队进度,你也可以在测试集上定期对你的系统进行评估——每周或每月进行一次。但不要使用测试集来对你的算法进行改变。包括是否回滚到上一周的系统。如果你这样做,你的算法可能会在测试集上过拟合,并且不能在依靠它来对系统进行评估。 (如果你发表研究论文或者进行一个很重要的商业决策,就需要注意这一点).
  2. 评估指标衡量的并不是项目优化所需要的东西 假设对于你的猫咪APP,你的评估指标是分类准确率。在该指标下,分类器A优于分类器B。但是假设你尝试了这两种算法,发现分类器A偶尔会允许敏感图片通过。那么即使分类器A的精度优越于分类器B,偶尔让敏感图片通过,这是无法接受的。你需要做什么呢?这里,该评估指标不能辨别出对产品而言算法B比算法A好这一事实。所以,这时候你就不能相信这个指标可以帮你选择出最好的分类器,你需要重新选择评估指标。例如,你可以改变评估指标,当对敏感图片分类错误时对算法进行严厉“惩罚”。我强烈建议你选择一个新的评估指标,并用新的标准来为团队明确定义一个新的指标。而不是在一个不可信的指标下处理太长的时间。 在项目中改变开发/测试集或者评估指标是很常见的。拥有一个初始的开发/测试集和评估指标能帮你快速迭代你的idea。如果你发现你的开发/测试集或评估指标没有正确的引导你的团队前进,你可以随时更改它们。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

直播课程 | TensorFlow工程大咖带你由浅入深玩转深度学习算法

王琛老师有话说 ? 《深度学习基础与TensorFlow实践》 AI100学院有幸邀请到《深度学习原理与TensorFlow实践》作者之一、百纳信息公司AI...

37160
来自专栏人工智能

2017年深度学习领域阅读量最高的11篇文章

来源:Analytics Vidhya 智能观 编译 【智能观】本文是国外知名技术网站Analytics Vidhya总结的11篇深度学习领域最佳文章,如果你还...

25180
来自专栏PPV课数据科学社区

【学习】关于推荐系统中的特征工程

在多数数据和机器学习的blog里,特征工程 Feature Engineering 都很少被提到。做模型的或者搞Kaggle比赛的人认为这些搞featu...

54480
来自专栏AI科技评论

干货 | DeepMind 提出 GQN,神经网络也有空间想象力

AI 科技评论按:人类理解一个视觉场景的过程远比看上去复杂,我们的大脑能够根据已有的先验知识进行推理,推理的结果所能涵盖的内容也要远超出视网膜接收到的光线模式的...

14430
来自专栏AI科技评论

深度 | BAIR论文:通过“元学习”和“一次性学习”算法,让机器人快速掌握新技能

AI科技评论按:近日伯克利大学人工智能实验室(BAIR)Sergey Levine团队在Arxiv上发布了一篇名为《One-Shot Visual Imitat...

406100
来自专栏杨熹的专栏

AI 在 marketing 上的应用

23030
来自专栏AI研习社

为什么你需要改进训练数据,如何改进?

Andrej Karpathy 在他的 Train AI 演讲中展示了这张胶片,我非常喜欢。这张胶片完美地揭示了深度学习在研究与生产间的区别。通常来说,学术论文...

10110
来自专栏应兆康的专栏

11. 什么时候更改开发/测试集和评估指标

当开始一个新项目的时候,我会试图快速的选择开发/测试集,因为这样可以给团队一个很明确的目标。 我通常会要求我的团队在不到一周的时间内(几乎不会超过这个时间)提供...

37370
来自专栏美图数据技术团队

干货 | 基于用户行为的视频聚类方案

在个性化推荐系统中,通常是由挖掘物品属性来理解用户兴趣,从而构建推荐模型。从用户行为去理解物品属性往往做得比较简单,通常只是一些简单的标签统计。为了深入到用户行...

40940
来自专栏Duncan's Blog

社交网络中抽取有代表性的用户

将用户以各个属性构建向量,以向量之间的距离来定义人物之间的代表性. 以Twitter社交拓扑为例,当A用户关注了B用户,将会有A指向B的一条有向边,

15120

扫码关注云+社区

领取腾讯云代金券