首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

人工智能高端产业背后的低端生意,数据标注是什么?

在中国河北衡水,由于污染严重导致化工厂停产,26 岁的小苏带着原先 30 多人的团队转行数据标注,队员小的二十出头,大的年近不惑,他们中的很多人都没有高中学历。

在印度喀拉拉邦的一座小村庄,高中辍学的Mujeeb Kolasseri领着一支200多人的团队,为美国、欧洲、澳洲和亚洲的人工智能公司提供数据标注服务,员工大多都是附近的村民。

小苏公司的员工正在做一个手写字母识别的项目,标注员需要认出一张张单据上的手写字母,然后把这些字母标注出来,告诉计算机,哪些字母是A,哪些是B…… 这样的工作其实并不简单。例如手写的 i, 可能是顶上一点加上下面一竖,也可能后面带了一个翘起的小勾,更潦草一点的,可能看上去像数字 9,或者像小写的z……

而Mujeeb Kolasseri公司的团队成员,正在忙着标注自动驾驶汽车上的车载摄像头所拍摄的照片,他们要在照片中标记出车辆、道路、信号灯、路标、障碍物以及行人的影像。除了摄像头拍摄的照片,还有一些影像来自雷达传感器,这些雷达传感器能创建3D地图,以帮助自动驾驶车辆感知其周围的物体,但这些相对抽象的数据要比摄像头拍摄的影像数据更难被精确标注。

伴随着人工智能(AI)兴起的最关键的技术莫过于深度学习了。而作为深度学习的基础,神经网络是一种以输入为导向的算法,其结果的准确性取决于接近“无穷量级”的样本数据。

除了那些需要由高端人才完成的相对复杂的环节,深度学习中非常关键和非常基础的工作就是需要有大量的样本数据去训练AI的“大脑”,而在进行数据训练之前,又必须先对大量的数据进行标注,从而作为机器学习的先导经验。因此,催生了大量数据标注公司的出现。

下面简单谈谈什么是数据标注。

要理解数据标注,首先得理解什么是人工智能(AI)。现阶段的AI,其能力在于可以部分替代人的认知功能。

人类的认知,通常需要一个教育的过程。最简单的例子,教2岁的宝宝认识苹果,父母需要拿出一个苹果到他面前,告诉他这是苹果,将实物与名称对应上以后,宝宝就完成了对苹果的认知过程。

AI也一样,我们需要向机器提供苹果的图片,并将图片中的苹果指出来,然后机器通过学习图片中苹果的特征,就能够认知苹果了。

可是,由于世界上的苹果有成百上千种,颜色也不尽相同,此外还有倒着放的苹果、被要咬掉半个的苹果或是烂掉的苹果。所以,如果想实现任意给AI一张包含有苹果的图片,AI都能识别出来的话,那首先我们要让AI见过各种类型和各种状态的苹果图片才行。这就需要提供大量基础数据(各种各样的含有苹果的照片)。

而数据标注的职责在于,人们提供给AI的大量图片中,不可能只有一个苹果,有可能是一个果篮的图片,一棵果树的图片,一个水果摊的图片,一个人拿着苹果的图片,或者是一张餐桌的图片。这就需要通过数据标注,在图片中把苹果圈出来,之后才能作为供AI练习认知苹果的训练数据。

当然,实际的数据标注,绝大多数比标注图片中的苹果要复杂的多,但也基本不会超过有一定阅历或生活常识的普通人所能够理解和掌握的程度,或者他们只要稍加训练即可从事这样的数据标注工作。

而另一方面,一个准确率要求较高的AI项目,其所需要的经过标注的训练数据,数量是非常大的。例如笔者的一位朋友,为了做一个车牌自动识别的项目,需要对超过5万张包含车牌的照片进行人工数据标注。

正因为数据标注的工作难度不高,但工作量不小,更像是一个熟练工种,所以,在中国,目前的数据标注工作主要集中在河北、河南、山东、山西等劳动力密集的地区,这样的选址能够让数据标注公司以更加低廉的劳动力成本去完成大量的数据标注工作。

最后再来说说几种常见的数据标注类型,让大家能够更直观形象地理解一下这项工作的具体内容。

1.属性标注:就是最常见的给目标对象打标签。一般是从既定的标签中选择数据对应的特征属性。如下图:

需要给不同的人物标注出他/她的性别、肤色、人种、是否戴眼镜、头发长短、头发颜色以及大致年龄与情绪等等。属性标注的应用范围非常广,适用于文本、图像、语音、视频等各种类型的数据。

2.框选标注:就是框选出要识别的对象。例如行人识别,首先要先把行人的位置框选出来;车牌识别,首先要把车牌的位置框选出来,等等。如下图:

框选标注可以作为属性标注的基础,例如先基于框选标注,标注出人物来,再进一步进行人物的属性标注。框选标注重点用于图像中的人物、物品识别等。

3.轮廓标注:相比于框选标注,轮廓标注要求标注得更加具体,边缘更加精确。例如自动驾驶中的道路识别,需要严格识别出如马路边沿与车辆分道线等。如下图:

轮廓标注重点用于图像中的范围、区域识别等。

4.描点标注:相比于轮廓标注需要把轮廓完整地描述出来,描点标注则重点标注出目标对象上细致的特征点。例如人脸识别、骨骼识别等等。如下图:

描点标注重点用于图像中的人脸特征识别、形体动作识别等。

5.其他标注:数据标注除了上面几种常见类型外,还有很多种类,如文本标注、语义分割等,以及一些应用于特殊场景的个性化的数据标注类型。

但几乎所有数据标注,都并未脱离普通人进行自然与社会认知的范畴。毕竟,数据标注的目标,就是为了帮助AI去理解和认知这个我们身边已经存在的,再熟悉不过的世界,所以对于普通人来说,自然不会是什么难事。

本文系“科技无忧网( 微信公众号ID : kejiwuyoucom )”原创,如转载请附出处。认知互联网,解读新科技,助力创业创新及传统企业转型。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190404A01E5300?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券