当开始一个新项目的时候,我会试图快速的选择开发/测试集,因为这样可以给团队一个很明确的目标。 我通常会要求我的团队在不到一周的时间内(几乎不会超过这个时间)提供一个初始的开发/测试集和评估指标,并且提出一个不太完美的方案迅速行动起来,这比花更多的时间去思考更好。但在一些比较成熟的应用上,一周时间可能不够,比如:反垃圾邮件(anti-spam)是一个成熟的深度学习应用。我见过一些团队会花费数月的时间在已完成的成熟系统上,去获得更好的开发集/测试集。 如果之后发现你最初的开发/测试集或评价指标与目标有些偏差,那么请修改它们。例如:如果你的开发集和评估指标在分类器A上表现的效果比B好,但是你的团队认为B在实际的产品中表现的更加优越,这可能表示你需要重新更改你的开发/测试集或者你的评价指标。 有三个主要原因导致开发集或评估指标错误的认为分类器A的效果更好: 1. 你的实际数据与开发数据来自不同分布. 假设你的初始开发/测试集主要是一些成年猫咪的图片。而在APP上,用户上传了比预期多得多的幼年猫咪图片。所以导致你的开发集与测试集不在同一分布。在这种情况下,更新数据集是最好的选择。