专栏首页量子位刷新COCO目标检测纪录!谷歌只靠AI扩增数据,就把一个模型变成SOTA,已开源

刷新COCO目标检测纪录!谷歌只靠AI扩增数据,就把一个模型变成SOTA,已开源

栗子 发自 凹非寺 量子位 报道 | 公众号 QbitAI

谷歌大脑Quoc Le团队,又训练出了一只地表最强的模型。

这是一个目标检测模型,从前并不是最强大。

但自从团队用机器学习解锁了特别的数据扩增策略,再用自动扩增来的新数据集训练目标检测模型,事情就完全不同了。

注意:目标检测和分类不一样,分类不需要标注边界框,而目标检测需要。

左边是自动扩增数据,右边是成绩提升

模型在COCO目标检测任务上,拿到了50.7 mAP的最高分,刷新从前的纪录。

谷歌的方法,并没有改变模型本身,但有效提升了准确率,+2.3 mAP以上。

团队还强调,AI在COCO数据集里学到的扩增策略,直接迁移到其他数据集上,同样可以提升准确率。

现在,算法已经开源了,AI学到的扩增策略也在里面。

是怎样的扩增策略?

论文写到,这里的数据扩增只涉及了一些简单变换 (Simple Transformations) :

有应用在整张图片上、但不会影响边界框的那种变换,比如从图像分类里借来的颜色变换 (Color Transformations)。 也有不影响整张图片、但改变边界框位置的那种变换,比如图像平移 (Translating) 或剪切 (Shearing) 。 还有只针对边界框里的目标,而进行的变换。

注意,这些变换只用在训练过程中,不会用到测试环节里。

研究人员说,当变换的数量越来越庞大的时候,就很难手动把它们有效组合到一起了。

所以,就要用机器学习,搜索出更适合目标检测任务的组合策略。

思路是这样的:

团队把数据扩增搜索 (Data Augmentation Search) 看做一个离散的优化问题,优化的是模型的泛化表现

在自家的另一篇论文 (arXiv:1805.09501) 基础上,把重点转移到针对目标检测的扩增策略上。

比起图像分类任务的数据扩增,目标检测的难点在于,要保持边界框和发生形变的图像之间的一致性 (Consistency) 。

而边界框的标注,也为数据扩增提供了一种新的方式:只在边界框里面修改图像。就像上文讲的那样。

另外,团队还探索了在图片发生几何变换 (Geometric Transformations) 的情况下,怎样去改变边界框的位置。

具体方法是这样的:

把扩增策略定义成一组无序的子策略 (Sub-Policy) 。

在训练过程中,每个子策略都会被随机选中,应用到当前的图片里去。

每个子策略里,有N个图片变换,依次在同一张图上进行。

要把这个搜索过程,变成一个离散的优化问题,就要创建一个搜索空间。

空间里面,有5个种策略,每种子策略有2种图像变换运算。

另外,每个运算还和两个超参数相关联,一个是代表应用这个运算的可能性 (Probability) ,二是这个运算的大小 (Magnitude) 。

初步实验之后,团队定下了22种图像变换运算。

学习完成的子策略,成效是这样的:

肉眼可见,成效显著。

一是在COCO目标检测中,以50.7 mAP拔得头筹,(比策略训练前) 提升了2.3 mAP

二是在PASCAL VOC目标检测中,提升了2.7 mAP。

也就是说,在COCO上训练好的策略,直接搬到其他数据集上也有效。

团队说,这个方法尤其适合在小数据集中避免过拟合

现在,代码开源了,你也要试试么?

论文传送门: https://arxiv.org/abs/1906.11172

代码传送门: https://github.com/tensorflow/tpu/tree/master/models/official/detection

本文分享自微信公众号 - 量子位(QbitAI),作者:关注前沿科技

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-06-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 谷歌提出新型自动语音识别数据增强大法,直接对频谱图“动刀”,提升模型表现

    这种已经无处不在的音频转录成文本的技术,在缺乏足够大的数据集,模型过拟合严重。因此当前如何去扩增音频数据是个大问题。

    量子位
  • 浏览器上跑:TensorFlow发布实时人物分割模型,秒速25帧,24个部位

    用npm install @tensorflow-models/body-pix安装,然后用es6模块来导入:

    量子位
  • 一个算法同时解决两大CV任务,让目标检测和实例分割互相帮助,地平线实习生论文被AAAI 2020收录

    上面的结果由Mask R-CNN得到,可以看到由于边界框定位不准导致前两张图的实例掩码缺失,以及后两张图的边界框与实例掩码不统一。

    量子位
  • [日常] Go-逐行读取文本信息

    go逐行读取文本信息: 1.os包提供了操作系统函数的不依赖平台的接口,Open方法打开一个文件用于读取,func Open(name string) (fil...

    陶士涵
  • 什么是DRP

    DRP全称是(Distribution Resource Planning),中文意思就是分销资源计划。那么什么是分销?百度百科说:在西方经济学中,分销的含义是...

    the5fire
  • 有没有网络模型是动态变化的,每次用的时候都不一样?

    欢迎大家来到《知识星球》专栏,这里是网络结构1000变小专题,今天给大家介绍一类网络结构,它是动态变化的,每一次使用的时候都不一样。

    用户1508658
  • kubernetes 指标采集组件 metrics-server 的部署

    metrics-server 是一个采集集群中指标的组件,类似于 cadvisor,在 v1.8 版本中引入,官方将其作为 heapster 的替代者,metr...

    田飞雨
  • python列表推导式中使用if-els

       今天在处理自动化邮件数据时碰到数据行中包含字符串后,从hive中拿到的整数型数据自动转化成了浮点数,严重影响美观性。因此想到了用列表推导式来做转化,将其中...

    py3study
  • matlab自助法实现

    方法:以bootstrap sampling为基础,给定包含m个样本的数据集,我们对它进行采样产生数据集D’:每次随机从D中挑选一个样本,将其拷贝放入D’,然后...

    听城
  • 拿什么来保护用户数据?——美国白宫已着手出台商业数据使用规定

    白宫方面希望美国民众的讨论焦点不再只聚焦于国家安全局的监听事件,还能关注到诸如谷歌、脸书这一类公司的相关动向,为此白宫近日发布了一份姗姗来 迟的报告,建议政府出...

    小莹莹

扫码关注云+社区

领取腾讯云代金券