专栏首页有三AI【图像分类】 标签噪声对分类性能会有什么样的影响?

【图像分类】 标签噪声对分类性能会有什么样的影响?

不同类型的噪声会对模型的分类性能产生什么样的影响呢,让我们一同进行实验,来探索那暗中作祟的标签噪声!

作者&编辑 | 郭冰洋

1 简介

在数据集制作过程中,由于主观、客观的原因,会导致标签噪声的出现,其存在会对最终的分类模型性能造成一定的影响。因此,在实际应用过程中,总是要对现有的数据集进行清洗,以避免标签噪声的干扰。

常见的标签噪声包括跨类别噪声和随机噪声两种。跨类别噪声是指属于数据集某一确定类别的图片,被误分至属于数据集的另一确定类别。随机噪声是指属于数据集某一确定类别的图片中,有大量与类别标签不相关的图片,同时这些图片不属于数据集中的任何一类。

本篇文章我们将以Cifar 10、Cifar 100数据集作为实验数据,对标签噪声进行探究,以测试不同类型、不同比例的噪声对分类模型的影响。

2 实验记录

2.1 无标签噪声的训练结果

首先我们通过构建最基本的CNN网络对两个数据进行分类,在正常图片且无标签噪声的情况下,Cifar 10和Cifar 100分别取得了89.2%和65.8%的准确率,以此作为基础结果,我们将分别添加不同的噪声进行对比。

2.2 含标签噪声的训练结果

通过设置不同的噪声类别和比例,对其进行训练后我们得出相应的准确率,可以发现随着噪声比例的增加,分类模型的准确率会受到相应的影响,跨类噪声的影响明显更大。

对比实验的结果告诉我们,标签噪声的存在会对模型产生一定的影响,这一影响在数据集容量相对较少时会更加明显,这是目前急需解决的一个问题。

3 解决方案

3.1 混淆矩阵推理

为了减少噪声的影响,最直接的方法是人工对数据集中的错误标签进行一一筛选,但这样会耗费大量的人力和时间,并非最可取的方法。

在评价分类模型的准确率时,我们往往会通过分析混淆矩阵以查看不同类别的预测结果,通过混淆矩阵我们可以得到每个类别预测正确和错误的个数,近似的认为预测错误的类别属于跨类标签噪声。

在跨类噪声比例20%的情况下,我们得出相应的混淆矩阵结果如上表所示,可以看出每个类别中均有预测错误的样本出现。

针对这些错误的预测样本,随机将其划入其他类别,并进行重新训练,若混淆矩阵的预测结果可以得到进一步的提升,则保留图像至该正确样本。

通过3次的迭代训练,我们对模型的结果进行重新评估,可以发现其准确率得到的非常大的提升。

3.2 数据统计分析

除了上述根据混淆矩阵的结果进行迭代修正的方法,目前主流的方法还包括数据统计分析,即通过对现有的图像数据进行相应的预处理,借助回归分析、分箱分析等传统的机器学习算法,事先剔除不属于某一类别的图像,然后进行训练。随后再对剔除的图像进行测试,得到对应的预测类别后重新划分数据集,再进行重新训练。

总结

迭代训练的方式可以减少人工修改标签的时间,但同样会消耗一定的训练时间,目前还没有一个完全高效妥善的方式可以解决这一问题,因此还需要各位去发掘更多更有效的算法去解决这一问题。

本文分享自微信公众号 - 有三AI(yanyousan_ai)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-09-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【技术综述】多标签图像分类综述

    图像分类作为计算机视觉领域的基础任务,经过大量的研究与试验,已经取得了傲人的成绩。然而,现有的分类任务大多是以单标签分类展开研究的。当图片中有多个标签时,又该如...

    用户1508658
  • 【方法杂谈】你真的了解CVPR吗?

    我没有参加过CVPR,大部分人这辈子也不可能有机会参加CVPR,不过关注这个领域的仍然会时常从零零碎碎的媒体带来的信息中得知一些消息然后乐于其中。

    用户1508658
  • 【模型训练】SGD的那些变种,真的比SGD强吗

    深度学习框架目前基本上都是使用梯度下降算法及其变种进行优化,通常意义上大家会认为原始的梯度下降算法是最弱的,但事实上并非如此。

    用户1508658
  • iOS应用程序如何调用以太坊智能合约 原

    以太坊智能合约有各种各样的用例,但到目前为止,从你的iOS应用程序中调用它们非常困难。不过如果使用以太坊iOS开发套件和EtherKit,这种情况会改善很多,你...

    笔阁
  • 移动设备网页打电话、发短信、发邮件的html5链接实现方法

    在移动浏览器中实现拨打电话,调用sms发短信,发送email等功能,移动手机WEB页面(HTML5)协议提供的接口是一个好办法。采用url href链接的方式,...

    疯狂的技术宅
  • 【AI核心技术】课程五:BP反向传播简介

    UAI与PaddlePaddle联合推出的【AI核心技术掌握】系列课程持续更新中!

    用户1386409
  • 使用githubpages主题NexT的语法

    达达前端
  • App架构设计经验谈:展示层的设计

    三层架构中,数据层和业务层都已经做过了简单的分享,最后,就剩下展示层了。本篇就给各位分享下我在展示层设计方面的一些经验心得。

    Keegan小钢
  • 如何将SAP CRM产品主数据页面的assignment block设置成只读

    This method can only set existing data to read only, but could NOT prevent user ...

    Jerry Wang
  • NeurIPS 2019最佳论文出炉,今年增设“新方向奖”,微软华人学者获经典论文奖

    第32届神经信息处理系统大会(NeurIPS 2019)今天在加拿大温哥华正式召开。

    量子位

扫码关注云+社区

领取腾讯云代金券