专栏首页新智元谷歌推出“流体标注”AI辅助工具,图像标注速度提升3倍!(附论文)

谷歌推出“流体标注”AI辅助工具,图像标注速度提升3倍!(附论文)


新智元报道

来源:Google AI blog

编译:大明

【新智元导读】谷歌在其AI博客上介绍了一款基于AI和深度学习的图像标注方式“流体标注”,可作为人工标注者的有力辅助工具,将标记数据集的生成速度提升至现在的3倍,有望缓解目前机器学习研究中,高质量的训练数据获取难的瓶颈。

基于深度学习的现代计算机视觉模型(比如由TensorFlow对象检测API实现的模型)的性能取决于是否可以使用规模越来越大的标记训练数据集(如公开的图像)进行训练。

然而,如何获得高质量的训练数据,正迅速成为计算机视觉领域的主要瓶颈。这对于自动驾驶、机器人和图像搜索等应用中使用的语义分段的像素预测任务而言尤其如此。

实际上,传统的手动数据标记工具,需要标记者仔细点击图象边界,来划定图像中的每个对象,这很乏味:在COCO + Stuff数据集中,标记一个图像需要19分钟,而标记整个数据集需要53000小时!

COCO数据集中的图像示例(左)及其逐像素语义标记(右)。图片来源:Florida Memory

本文中的内容将在2018年ACM多媒体会议“勇敢新理念”环节中展示,谷歌的研究人员研究了一种机器学习驱动的界面,可用于标注分类数据,划定图像中每个目标的轮廓和背景,让标记数据集的生成速度提高至原来的3倍。

该工具名为流体标注(Fluid Annotation),从强语义分割模型的输出开始,人工标记者可以使用自然用户界面,通过机器辅助编辑操作进行修改。谷歌此次开发的界面可以让标记者选择要修改的内容和顺序,使他们能够高效地将精力集中在机器尚不了解的内容上。

对COCO数据集中图像使用流体标注界面的可视化。图片来源:gamene

更确切地说,为了对图像进行标记,我们首先通过预训练的语义分割模型(Mask-RCNN)来处理图像。这会生成约1000个图像片段及其分类标签和置信度分数。置信度分数最高的片段用于对标签的初始化,呈现给标记者。

然后,标记者就可以:(1)从机器生成的候选标签中为当前片段选择标签。(2)对机器未覆盖到的对象添加分割段。机器会识别出最可能的预生成段,标记者可以从中选择质量最高的一个。(3)删除现有段。(4)改变重叠段的深度顺序。(Demo链接在此:https://fluidann.appspot.com/,仅限桌面平台)

使用传统手动标记(中列)和流体标注(右)在COCO数据集的三张图像上进行标记的比较。虽然使用手动标记工具时,目标的边界一般更准确,但标记差异的最大原因是人类标记者通常对某一确切的对象分类有不同意见。来源:sneaka(上),Dan Hurt(中),Melodie Mesiano(下)。

流体标注是让图像标注变得更快、更容易的第一步探索。未来的目标是改进对目标边界的标记,进一步利用机器智能提升界面的速度,最终实现对界面的扩展,能够处理以前无法识别的分类,实现最高效、需求最大的数据收集。

而实际上,关于这款工具的论文的预印本早在近一个月前就发在了arxiv上。

论文地址:

https://arxiv.org/pdf/1806.07527

参考链接:

https://ai.googleblog.com/2018/10/fluid-annotation-exploratory-machine.html


本文分享自微信公众号 - 新智元(AI_era)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-10-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 2016 机器学习之路:一年从无到有掌握机器学习

    【新智元导读】程序员 Per Harald Borgen 在 Medium 刊文,介绍了他在一年的时间里,从入门到掌握机器学习的历程。Borgen 表示,即使没...

    新智元
  • 文字识别刷新世界纪录,海康威视浦世亮新智元“AI春节”解密安防大数据 | 新智元峰会演讲

    【新智元导读】在3月27日举行的中国“AI春节”——2017新智元开源·生态AI技术峰会上,海康威视研究院院长浦世亮发表演讲《安防大数据驱动下的智慧生活》,介绍...

    新智元
  • 贵州河南量产数据标注师傅,却成为中国AI获胜的秘密武器!

    中国人工智能崛起速度如此的迅猛,引起了老牌智能强国美国越来越紧密的关注。就在不到一个月前,中科院院士、中国科学技术大学教授潘建伟等人与德国、荷兰的科学家合作,在...

    新智元
  • 谷歌开发流体标注,标注图像数据集速度提高3倍

    标注通常是AI模型训练过程中最艰巨的部分。在计算机视觉中尤其如此,传统的标记工具需要人类来描绘给定图像中的每个对象。例如,在流行的Coco + Stuff数据集...

    AiTechYun
  • 我在攻读计算机视觉和机器学习硕士学位时学到了什么

    url : https://towardsdatascience.com/what-i-learnt-from-taking-a-masters-in-comp...

    LiveVideoStack
  • 顺序消息管道《Message Pipe》v1.0.2版本发布

    它是minbox开源组织内的新成员,Message Pipe从字面的意思上理解为 "消息管道",它确实是一个消息管道的定位,是基于Redis实现的分布式顺序消息...

    恒宇少年
  • 读《学习之道》— 增强你的记忆力

    我们都有出色的视觉和空间记忆。如果让你观察一所从未参观过的房子,你会很快对大致的家具摆放、房间、布局、配色方案等有一个印象,短短几分钟,你的大脑就会获取并保留上...

    Ewall
  • WCF发布到IIS7问题的解决方案

    本文转载:http://www.cnblogs.com/allexw/archive/2011/04/12/2014017.html

    跟着阿笨一起玩NET
  • 干货 | 攻击AI模型之FGSM算法

    本文将为您揭开白盒攻击中鼎鼎大名的FGSM(Fast Gradient Sign Method)算法的神秘面纱!

    AI科技评论
  • 浅析数据安全与隐私保护之法规

    在大数据时代背景下,AI和大数据技术给我们的生活带来了巨大的便利和效率;然而在此过程中,数据滥用、数据窃取、隐私泄露以及“大数据杀熟”等数据安全问题呈徒增和爆发...

    绿盟科技研究通讯

扫码关注云+社区

领取腾讯云代金券