我目前正在训练一个使用Nvidia数字的图像分类器。我正在下载100万张图片,作为ILSVRC12数据集的一部分。如您所知,此数据集由1,000个类组成,每个类包含1,000个图像。问题是很多图像是从死Flickr URL下载的,因此我的数据集中有相当一部分(大约5-10%)填充了下面显示的通用“不可用”图像。我计划浏览并删除这个“泛型”图像的每个副本,从而使我的数据集只包含与每个类相关的图像。
此操作将使类的大小不均匀。它们不再包含1,000张图像。它们将包含900-1000张图片。每个类的大小必须相等吗?,换句话说,我能在不影响分类器准确性的情况下删除这些通用图像吗?谢谢您的反馈。
发布于 2017-08-01 04:56:28
每个班级的培训数据数量不一定完全相等。这样或那样的10%的差异不会对训练过程产生显著的影响。
如果您仍然关注标签的不平衡,可以考虑使用"InfogainLoss"
层来弥补缺少的示例。
PS,您可以利用以下事实:所有无效的flickr照片实际上都是相同的,并根据它们的md5sum自动删除它们。
例如,有关如何在下载imagenet照片时过滤掉这些图像,请参见这个答案。
https://stackoverflow.com/questions/45428451
复制相似问题