数据标注作为人工智能的“启蒙老师”,帮助人工智能认知世界。将小孩子般的人工智能一步步培养成如今可以独当一面的大人。人工智能的进步离不开为其源源不断地提供数据的标注员
数据标注员的职责如此重大,让不少小伙伴心动,有意加入标注行业。但很多人对于数据标注这个行业还是相对陌生的很,今天我们就从标注的行业现状、质量、以及工具几个方面做一个大致的了解
1
数据标注行业现状
1、对数据服务商的场景化标注能力要求提升
不同的应⽤场景所对应着不同的标注需求,⽐如⾃动驾驶领域主要包括⾏⼈识别、车辆识别、红绿灯识别、道路识别等内容,⽽智慧安防领域则主要涉及⾯部识别、⼈脸检测、⼈脸关键信息点提取以及车牌识别等内容,这对数据服务供应商的定制化标注的专业性要求更高
2、高门槛标注项目人力成本过高
数据标注本质上仍属于劳动密集型产业。⼀些特殊的⾏业,如⾦融、医疗、语言、法律等对于数据标注的专业度要求更⾼,通过传统的标注⽅法已经难以满⾜当前的⾏业需求。因此,想要满足当前的行业需求,必须要有更多专业性的⼈才输⼊,这直接关系到的便是高额的人力成本
3、标注效率有待提高
在人力成本无法减轻的情况下,提高数据标注员标注熟练度,或者使用高效率的标注工具可以有效提升标注效率。但熟练度高的标注员在行内仍是稀缺状态,而高效率的标注工具在行业内也较为稀缺
4、标注数据的准确率有待提高
数据集质量的高低直接决定最终模型质量的好坏。机器学习依赖海量标注数据的投喂,这些数据质量的高低将对AI最终能否顺利落地产生重要影响。因此,随着科技的不断发展,行业对标注数据的准确率要求越来越高,目前标注数据准确率需达到99%,甚至是99.99%才可满足行业需求
2
数据标注的质量
数据的高质量体现在两个方面:一个标注的数量多,二是标注的质量高
图像标注的质量标注
图像标注的质量好坏取决于像素点的判定准确性
标注像素点越接近被标注物的边缘像素,标注的质量就越高,标注的难度也越大。如果图像标注要求的准确率为100%,标注像素点与被标注物的边缘像素点的误差应该在1个像素以内
语音标注的质量标注
语音标注时,语音数据发音的时间轴与标注区域的音标需保持同步
标注于发音时间轴的误差要控制在1个语音帧以内。若误差大于1个语音帧,很容易标注到下一个发音,造成噪声数据
文本标注的质量标注
文本标注涉及到的任务较多,不同任务的质量标准不同
例如:分词标注的质量标准是标注好的分词与词典的词语一致,不存在歧义;情感标注的标注质量标准是对标注句子的情感分类级别正确
3
常用的数据标注工具
名称
简介
运行平台
标注形式
标注格式
LabelImg
著名的图像标注工具
Windows,Linux,Mac
矩形框
VOC和YOLO格式
LabelMe
著名的图形界面标注工具,能够标注图像和视频
Windows,Linux,Mac
多边形、矩形、圆形、多段线、线段、点
VOC 和 COCO 格式
RectLabel
图像标注
Mac
多边形、矩形、多段线段、点
YOLO、KITTI、 COCO1、CSV
VOTT
基于 Web 方式本地部署的标注工具,能够标注图像和视频
Windows,Linux,Mac
多边形、矩形、点
TFRecord、CSV、VoTT
LabelBox
适用于大型项目的标注工具,基于Web,能够标注图像、视频和文本
-
多边形、矩形、线、 点、嵌套分类
JSON 格式
VIA
VGG的图像标注工具,也支持视频和音频标注
-
矩形、圆、椭圆、多边形、点和线
JSON 格式
COCO UI
用于标注 COCO 数据集的工具,基于 Web 方式
-
矩形、多边形、 点和线
COCO格式
Vatic
Vatic 是一个带有目标跟踪的视频标注工具,适合目标检测任务
Linux
-
VOC 格式
BRAT
基于 Web 的文本标注工具,主要用于对文本的结构化标注
Linux
-
ANN 格式
DeepDive
处理非结构化文本的标注工具
Linux
-
NLP 格式
Praat
语音标注工具
Windows,Unix,Linux,Mac
-
JSON 格式
精灵标注助手
多功能标注工具
Windows,Linux,Mac
矩形、多边形和曲线
XML 格式
4
小结
以上就是今天关于数据标注的一些分享,虽然现在有很多人听到这样的说话:“工作会被人工智能替代”,但这个是有些牵强的,如果人工智能产品像新生儿一样,那么软件开发人员就像父母一样,我们就是为新生儿制作食物的人,没有我们提供的食物,新生儿就无法生长
领取专属 10元无门槛券
私享最新 技术干货