专栏首页曼孚科技三分钟读懂何为“数据标注”
原创

三分钟读懂何为“数据标注”

作为人工智能三大决定性影响因素,算法、算力与数据,一直是行业研究的重中之重。

​然而,相比于算法与算力,数据领域受到的关注度显然少了很多。尤其是数据标注行业,作为人工智能产业的基石,与处在聚光灯下的AI整体行业相比,显得那么粗砺与拙朴。

不过,随着时代的发展,这种情况出现了很大的改观,数据标注的重要性越来越得到整个AI行业的认可。AI对数据的质量、规模和场景化方面的要求越来越高,精细化、领域化成为了标注数据的新标准。

1.什么是数据标注

数据标注是AI行业的一个分支。目前的人工智能算法由数据驱动,一个好的模型需要质量优异的数据资源做支撑。想要了解什么是数据标注,就得先理解人工智能的目标:机器代替人的认知与思考。

回想一下我们在小的时候是如何认知这个世界的,比如汽车。当我们第一次见到汽车这个物体时,我们并不知道它叫什么有什么用。我们的父母会告诉我们,这个东西读作“汽车”,它是这样的形状,并且能够行驶。

类比机器学习。我们要让机器明白什么是汽车,只能给机器一张汽车的图片,标注出汽车轮廓,并标记上名字“汽车”,这个时候机器就能识别出这张图片里的汽车了。然而,相比如人类,机器并不具备思考与联想的能力。换一张图片之后,机器可能就识别不出来里面的“汽车”了。怎么办?这个时候需要给机器大量标注好的图片,让机器找到这些图片里汽车的共同特征,那么以后就可以识别出其他汽车了。

简单来说:数据标注就是通过数据标注员借助标注工具,对人工智能学习数据进行加工的一种行为。

2.数据标注工具有哪些

数据标注的基本数据类型包括文本、图片、视频、语音、数值型数据等。

常用的数据标注工具类型有2D框、多边形分割、语义分割、点标注、线标注、视频标注、3D立方体标注等等。

3.数据标注行业新趋势

目前,人工智能技术逐渐从实验室走向现实,落地产品对于标注数据的质量提出了新的要求。就当前的数据采集和标注的情况来看,传统的通用数据显然已无法满足产业场景化的要求,精细化、高质量的标注数据已成为行业新的需求。

在这样的时代背景下,数据标注行业亟需一场变革,高效率的数据标注工具与高素质的数据标注员将成为行业未来发展的重要组成部分,精细化的标注数据将构成未来AI行业发展最坚固的基石。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 三分钟读懂Softmax函数

    比如,在互联网广告和推荐系统中,曾广泛使用Sigmod函数来预测某项内容是否有可能被点击。Sigmoid函数输出值越大,说明这项内容被用户点击的可能性越大,越应...

    PP鲁
  • 3分钟读懂数据库视图

    18.1、 什么是视图 • 视图是一种根据查询(也就是SELECT表达式)定义的数据库对象,用于获取想要看到和使用的局部数据。 • 视图有时也被成为“虚拟表...

    葆宁
  • 「数据库架构」三分钟搞懂事务隔离级别和脏读

    最近,当开发人员David Glasser了解MongoDB默认执行脏读的糟糕方式时,MongoDB再次成为Reddit的佼佼者。在本文中,我们将解释什么是隔离...

    首席架构师智库
  • 2分钟读懂大数据框架Hadoop和Spark的异同

    谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是停留在字面上,并没有对它们进行深入的思考,下面不妨跟我...

    华章科技
  • 2分钟读懂大数据框架Hadoop和Spark的异同

    谈到大数据,相信大家对 Hadoop 和 Apache Spark 这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面...

    华章科技
  • 2分钟读懂大数据框架Hadoop和Spark的异同

    谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟...

    bear_fish
  • 一分钟读懂兼容报告——行业对标数据助你定位产品状况

    ? 通过兼容测试服务,用户在拿到一份数据详细的兼容测试报告后,可以直观看到产品自身的兼容性问题,如安装失败、UI异常、闪退等现象。在上一期《一分钟读懂兼容测试...

    WeTest质量开放平台团队
  • 一分钟读懂兼容报告——行业对标数据助你定位产品状况

    原文链接:https://wetest.qq.com/lab/view/450.html

    WeTest质量开放平台团队
  • 华为内部万人分享:5分钟,轻松搞懂大数据

    2013年“大数据”一词火爆IT圈,到底什么是大数据?华为内部认为,海量数据的产生、获取、挖掘及整合,使之展现出巨大的商业价值。   一、详解时髦词汇:大数据...

    CDA数据分析师
  • 如何用labelme标注语义分割数据集

    采用的软件为labelme,labelme是麻省理工(MIT)的计算机科学和人工智能实验室(CSAIL)研发的图像标注工具,人们可以使用该工具创建定制化标注任务...

    狼啸风云
  • 【学习】2分钟读懂大数据框架Hadoop和Spark的异同

      谈到大数据,相信大家对 Hadoop 和 Apache Spark 这两个名字并不陌生。但我们往往对它们的理解只是停留在字面上,并没有对它们进行深入的思考,...

    小莹莹
  • 3分钟速读原著《Java数据结构与算法》(三)

    cwl_java
  • 1分钟读懂人口普查大数据——第七次人口普查数据可视化BI分析

    5月11日,第七次全国人口普查主要数据结果正式公布,数据详实,信息量大。那么,如何才能迅速了解和读懂本次普查的关键数据和背后趋势呢? 我们基于国家统计局发布的...

    葡萄城控件
  • 数据分析平台如何成为企业标配?

    3月4日,中共中央政治局常务委员会召开会议,强调要加快5G网络、数据中心等新型基础设施建设进度,简称“新基建”,这一政策也昭示着数据应用越来越向全民普及化的趋势...

    数据猿
  • 数据民工,也能移动办公了:目标检测标注App上线Google Play,分分钟创建私人数据集

    最近,Reddit上介绍了这样一款移动版边框标注工具Manthano,不到12小时,就获得600+热度。

    量子位
  • BAT面经

    因为也许我当时因为要实现梦想只有一条途径,可如果你选择了一条路,这并不意味着你要放弃其他的方式。——《跳出我天地》

    牛客网
  • 谷歌上线机器学习速成课程:中文配音+中文字幕+完全免费!

    【导读】3月1日,Google上线了AI学习网站——Learn with Google AI,并重磅推出了机器学习速成课程MLCC,该课程基于TensorFlo...

    WZEARW
  • 五分钟学后端技术:一篇文章教你读懂大数据技术栈!

    链接:https://www.zhihu.com/question/27696290/answer/381993207

    黄小斜学Java
  • 动态代理之投鞭断流!看一下MyBatis的底层实现原理!

    一日小区漫步,我问朋友:Mybatis中声明一个interface接口,没有编写任何实现类,Mybatis就能返回接口实例,并调用接口方法返回数据库数据,你知道...

    Java后端技术

扫码关注云+社区

领取腾讯云代金券