专栏首页一刻AI如何进行数据标注(2)

如何进行数据标注(2)

现在网络上关于深度学习算法的文章很多,但深度学习其实是数据驱动型。很多时候数据足够好,能给算法开发提供很大的便利。今天来介绍一下如何进行数据标注。

文章共两个部分:(1)数据标注综述(2)数据标注指南

本文是第二部分:数据标注指南。本文可能会帮助读者更直观的认识对图片标注中的问题。

1、笔记来源

本文的标注要点来源于图像标注专家Adela Barriuso的标注笔记。她于2007年开始使用labelme系统地标注SUN数据库,标注了 超过25万个物体。笔记记录了标注过程中曾遇到的困难和采用的解决方案,以便得到一致性高的图片标注。

Adela Barriuso在西班牙的一家服装店里进行数据标注,这就是传说中的大隐隐于市吗?

2、标注笔记

下面是Adela Barriuso在数据标注中的心得:

· 在标注图像时,首先对图像进行整体的评估,衡量标注难度。有些乍一看标注难度较大的图像,实际上图中的元素很少,很容易标记。

· 标注时,通常由大到小进行标注。比如开放空间中先标注天空,封闭空间内先标注天花板,然后再继续添加其他东西。

· 标记的顺序不重要,但标注时最好一行行进行,将一行内所有类型相同的对象全都标注上,降低标签写错的可能。

· 一般不标注镜子里反射的物体,这很容易造成误导。

· 在图像中有很多线条性物体时(如下图中的扶手和栏杆),需要特别注意,有可能标注出与所需完全相反的内容(即孔内被标记为对象),标注线在同一个位置经过两次是正常的,刻意避免可能会出现上述情况。

· 标注图像中出现打开的门窗等情况时,不仅仅要标注门窗,也应将门窗内的物体也标注上,这有助于增加深度感。

· 标注时的标注线条要清晰一些,尽量避免线条的堆积。

· 像下图中的这种过于复杂的图片,如果你对图中的内容不够熟悉,就干脆跳过去。

· 如果一个物体被另一个物体遮挡,在给他们做标注时要给两个物体都贴上标签,同时确保它们的边缘重合。

· 在进行标注时有时需要放大和缩小,放大有助于标注一些小细节,但放大有可能造成错乱。有些东西的局部放大后变得像其他物体。因此在标注之后需缩放至原始大小进行审核。

· 标注室内空间时,一般单独标记不同方向的墙,即便它们是相互连接的。

· 在下图中,图像的复杂性是由于墙壁和拱门形成的不同深度平面造成的,在标记时需要给拱门内的元素进行标记。首先从两堵墙开始,然后给墙壁和容易分辨的大物体进行标注,最后再去标注小的一些细节。有时候遗漏是不可避免地

· 有时候某些容器是透明的,比如透明的容器内装着一些饼干,这时候是标注“容器”还是“饼干”呢?一般标注为“容器”,重点在于要保持标注原则的前后一致。

· 有时候标注标签并非自己的母语,当标注的目标物种类较多时,一定要建立一个标签的对应关系,方便查找,如bed:床

本文分享自微信公众号 - 一刻AI(YiKeAI_1123),作者:一刻AI

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-03-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 如何进行数据标注(1)

    现在网络上关于深度学习算法的文章很多,但深度学习其实是数据驱动型。很多时候数据足够好,能给算法开发提供很大的便利。

    用户7699929
  • 表面缺陷检测的意义及现状

    本节首先介绍表面缺陷检测的基本概念、重要意义和应用现状,对概念、意义及现状的充分了解能够帮助读者更清晰地理解表面缺陷检测方法的发展历程,从而掌握目前主流的视觉检...

    用户7699929
  • 工业界表面缺陷检测方法综述

    产品的表面缺陷检测是近年来制造业中格外关注的一项技术问题。作为生产制造过程中必不可少的一步,表面缺陷检测广泛应用于各工业领域,包括3C、半导体及电子、汽车、化工...

    用户7699929
  • 还在手工标注数据?试试Snorkel!

    我知道你已经用上了最先进的深度学习模型,不过,还在人工标注数据吗?这有点过时了!快来了解下Snorkel —— 最新的基于弱监督学习的大规模训练数据标注神器!

    用户1408045
  • 基于web的通用文本标注工具MarkTool in NLP

    (1).最基础的实体标注功能需要实时可视化显示每次的标注结果,每次标注时需要支持可选择大量实体类型。

    机器学习AI算法工程
  • 效果类评测之数据标注踩过的坑

    用户5521279
  • 7种常用的数据标注工具

    标注工具是数据标注行业的基础,一款好用的标注工具是提升标注效率与产出高质量标注数据的关键。

    曼孚科技
  • 文本标注工具介绍

    自然语言处理技术(NLP)在多个领域有着广泛运用,比如情感分析、文本相似度、评论观点抽取、文本分类、词法分析等等,算法模型训练离不开大量标注好的文本,动辄几万条...

    小瓦匠
  • 用深度学习做命名实体识别(一):文本数据标注

    “ 本文是用深度学习做命名实体识别系列的第一篇,通过本文,你将了解如何用brat做文本数据标注。”

    程序员一一涤生
  • 如何进行数据标注(1)

    现在网络上关于深度学习算法的文章很多,但深度学习其实是数据驱动型。很多时候数据足够好,能给算法开发提供很大的便利。

    用户7699929

扫码关注云+社区

领取腾讯云代金券