图像分类每个标签按比例划分数据

用户3578099

发布于 2020-11-30 10:23:58

1.4K0

发布于 2020-11-30 10:23:58

在做图像分类时候，会收集一批相应的数据，这里将其称为总数据集total-data，

按照一般的做法，会将总数据集划分为训练集（train-data）、验证集（valid-data）以及测试集（test-data）。这里为了方便，将总的数据集划分为训练集和验证集。

有时候使用随机分配的算法会导致每个标签下样本的个数分布不是很均匀，有的标签下样本个数很多，有的标签下样本个数很少，这就导致了一种数据不均衡问题，使得训练的模型偏向于数据样本多的标签。那么我们能不能按照相应的比例，也将每一个标签下的数据按照对应的比例进行划分呢？这其实也是比较好实现的。

假设项目目录为dataset，下面有total-data文件夹、train-data以及test-data文件夹

total-data目录下存放的是所有的图像数据集，图像命名样式为label_xxxx.jpg

1.获取所有的图像样本名称：

2.按照比例将total_data.txt划分为train_data.txt以及test_data.txt:

其中，split_train_test.py样式如下：

3.统计分析下每个标签下样本的数量

其中，statistic.py:

从总数据集中复制对应的图像文件到训练集和测试集

其中，cp_file.py：

后续就是准备标签，以及定义模型及训练了，这里不做过多介绍。上述有些功能在一些深度学习框架中有实现，但自己实现一下可以更加清楚一下整个流程。

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2020-11-23，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技时讯微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度