首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >图像分类器的训练数据中每个类的大小必须相等吗?

图像分类器的训练数据中每个类的大小必须相等吗?
EN

Stack Overflow用户
提问于 2017-08-01 03:25:11
回答 1查看 693关注 0票数 0

我目前正在训练一个使用Nvidia数字的图像分类器。我正在下载100万张图片,作为ILSVRC12数据集的一部分。如您所知,此数据集由1,000个类组成,每个类包含1,000个图像。问题是很多图像是从死Flickr URL下载的,因此我的数据集中有相当一部分(大约5-10%)填充了下面显示的通用“不可用”图像。我计划浏览并删除这个“泛型”图像的每个副本,从而使我的数据集只包含与每个类相关的图像。

此操作将使类的大小不均匀。它们不再包含1,000张图像。它们将包含900-1000张图片。每个类的大小必须相等吗?,换句话说,我能在不影响分类器准确性的情况下删除这些通用图像吗?谢谢您的反馈。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-08-01 04:56:28

每个班级的培训数据数量不一定完全相等。这样或那样的10%的差异不会对训练过程产生显著的影响。

如果您仍然关注标签的不平衡,可以考虑使用"InfogainLoss"层来弥补缺少的示例。

PS,您可以利用以下事实:所有无效的flickr照片实际上都是相同的,并根据它们的md5sum自动删除它们。

例如,有关如何在下载imagenet照片时过滤掉这些图像,请参见这个答案

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45428451

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档