专栏首页人工智能头条我猜,你还不知道数据标注公司在做什么吧?(2)

我猜,你还不知道数据标注公司在做什么吧?(2)

01

资源特点篇

我猜,你还不知道数据标注公司在做什么吧?》中我们提到的资源,也就是数据标注公司要面对的甲方:AI公司、AI企业、AI研究所。那么问题来了,人工智能公司、人工智能企业、人工智能研究所多种多样,作为一个数据标注公司应该如何定义自己的服务方向呢?

首先我们要能够准确的了解资源公司的特点,这样才能更好的为其提供符合自身特点的服务。

目前市场上的AI公司、AI企业、AI研究所大致分为以下几种,对于与数据标注公司的合作来说他们各有各的优势和劣势,这里对以下突出的几类进行分析:

1. 初创型 | 这里指的初创型公司一般指未进行过阶段融资的初次创业型公司。

优势: 沟通成本低 初创型公司的核心创始人一般都是公司的核心技术人员,所以他们对数 据标注的结果有清晰的需求认知,能够清楚严谨的表述出需要标注数据的规则,数据标注公司与此类资源公司在沟通上比较简单,能够快速的直入主题,迅速建立供需关系,省去冗长的上报、各级的批复等沟通环节。

结算时间快 这类资源公司本身公司架构也相对简单,对于标注完成后的结款时间相对也较短。

劣势: 需求连贯性不强 因为初创型公司很多没有稳定的甲方,同时公司在同一时期对接的甲方数量并不是一定的,有可能在某个月中会有很多,同样也可能一个没有。这就导致了在数据的需求连贯性上并不是很强。

标注需求量不大 在与甲方沟通合作的路上,展示型项目产品并不需要大量数据的验证。更多时候都是以小批量数据进行产品的小样展示,因为初创公司也要考虑项目的成功率和标注成本之间的关系。

2. 企业型 | 这里指已经形成一定规模的人工智能企业,同时可能已经获得多轮融资。

优势: 数据连贯性强 这里指的一定规模的人工智能企业可能已经是市场上第一梯队的领跑者,因为有成熟的产品和合作对象,其在产品需要进行迭代和研发关联产品时是需要大量标注数据作为模型训练的。同时因为其在业界的影响力,与新的需求商进行合作时的成单率也要远高于初创AI公司。

数据价值高 因为大型公司需要综合保密、质量、工期等多方面因素,同时因为已经与需求公司建立了正式的合作关系,此类型的AI公司在提供的数据标注单价上是要略高于初创型企业。

劣势: 结算周期长 因为此类公司的结构相对复杂,同时结构越复杂的公司其对于支出资金的流程也越谨慎,这种谨慎就会导致合同内的结款周期远远高于初创型企业。

沟通成本高 因为此类公司的架构相对复杂,一般一个项目的启动流程是“算法团队将需求提供给项目经理,项目经理联系数据标注公司试标-数据标注公司试标完毕反馈-项目经理检查并反馈给算法团队”。

这其中就避免不了多人传达规则时出现的模糊情况,需要大量的时间进行沟通和验证。同时在项目启动时的流程也相对复杂,不仅需要算法确认规则,需要财务确认支付方式,需要法务进行合同审核,需要项目主管领导批准,这些都会使数据标注公司的沟通成本大大增加。

3. 科研型 | 这里指各类政府、大学等行政事业单位的科研部门。

优势: 结算时间短 一般的科技机构的审批方式都是先进行项目报备,在项目报备通过的时候其实这部分的项目资金就已经预留出来了,只要数据标注公司能够按时按量的完成项目内容同时提供合同内规定的相关发票,就可以顺利结算。

沟通成本低 一般的科研机构都是由项目负责导师指定联系人进行与数据标注公司的沟通,同时被指定人一般也都是项目的参与人,所以在规则的制定上更为清晰,与初创公司一样,能够快速的进入主题,大大节省了数据标注公司在沟通方面所花费的时间。

劣势: 数据连贯性不强 因为此类科研所的项目基本都是阶段性的,一类产品上线后,相关产品再进行上线需要周期。

找寻成本高 因为科研机构的特殊性,在市场上很难准确就定位到需求部门,在众多部门中确立需求部门并与之建立起合作关系是需要耗费大量的时间和精力。

4. 综合型 | 向AI化转型的各类传统行业企业。

优势: 数据连贯性强 因为涉及传统生产的转型,该类企业一般都有独立的AI产品研发组,同时因为此类公司本身的体量和市场占有率,会使其对于需要转型的领域和需求产品更为宽泛。

数据量大 因为AI转型除了成熟的技术支撑之外,最重要的就是时间,越快将生产结合AI的企业,其市场竞争力也就越明显。而如何能让计算机快速的进行训练呢?除了算法团队的技术支撑,剩下的就是给计算机提供大量的符合模型识别的标注数据。

劣势: 结算周期长 和企业型公司性质相同,由于庞大的内部结构,项目资金的结款周期相较于初创型公司和研究所会大大增长。

工期紧张 因为有转型这个宏观任务,所以一般此类企业都对转型项目的落地时间有明确的规定,说简单一些就是工期紧、任务重。由于这种特点,数据标注公司在承接此类公司的项目时,需要有大量的人手进行数据标注,这对于公司本身的管理无疑也是巨大的挑战。

02

数据处理分类

我们是靠眼睛、耳朵来捕获外界信息,然后将信息通过神经元传递给我们的大脑,最后我们的大脑会对获取来的各种信息进行分析从而达到诸如判断、识别等效果。

同样,人工智能之所以称呼他为人工智能,是因为它的核心:也就是神经网络模型。它就是根据模拟人脑的神经网络而诞生的。

而图像、语音这一类信息通过特征标注处理(也就是数据标注),变成计算机能够识别的信息。同时通过大量特征数据的训练,最终达到计算机能够自主识别的目的。

那么目前AI市场上特征数据主要包括哪些呢?

像人类用眼睛和耳朵获取图像、语音数据一样,计算机的特征数据现阶段也分为两大类:图像数据和语音数据。

同时,根据AI产品迭代的不同周期、算法模型的匹配结果,每个大类又可以细分为众多小类,在这里我们主要对目前市场上主流的需求类型进行一个分类说明。

1. 图像类 这里图像类就是指所有照片的统称

图像场景识别作为人工智能不可获取的一部分已经在日常生活中被大批量应用,这里对图像特征的具体处理手法做一个简单介绍:

  • 四边形矩形拉框:这个也就是数据标注市场上统称的2D拉框,它主要是用特定软件对图像中需要处理的元素(比如:人、车、动物等等),进行一个拉框处理,同时用一个或多个独立的标签来代表一个或多个不同的需要处理元素,同时在标签的添加上可能会碰到多层次的添加(以人为标注元素为例,长短发、胖瘦、穿衣颜色等)从而实现粗线条的种类识别。
  • 多边形拉框:顾名思义就是将被标注元素的轮廓以多边型的方式勾勒出来,不同的被标注元素有不同的轮廓,除了同样需要添加单级或多级标签以外,多边型还有可能会涉及到物体遮挡的逻辑关系。从而实现细线条的种类识别。
  • LandMark:标注行业统称打点,对需要标注的元素(比如人脸、肢体)按照需求位置进行点位标注。从而实现特定部位关键点的识别
  • 语义分割:通过对需要标注区域或元素的充色,来达到不同元素或区域之间的分割关系,从而可以清晰的通过不同颜色的区域,对元素进行区分。从而实现系统化的识别。
  • 点云拉框:在软件生成的三维模型中,对被标注元素进行外轮廓的3D立体拉框,与2d拉框相同,也需要对生成立体框添加特定标签。从而实现具有空间感的识别。
  • VR打标 使用VR设备,在虚拟立体场景中,对需要标注的元素(各类物体)进行关键区域的打标签。从而实现更精准的被遮挡物品外观轮廓的感知。

2. 语音类 | 这里语音类就是指所有语音的统称

语音场景在人工智能领域作为和图片场景同样重要的环节,也同样被大批量的进行应用,这里对语音特征的处理手法大致介绍一下:

目前市场上主流的语音场景都是以区间为单元对区间内的内容进行转述,区间里的元素就是被标注元素。

像图片场景里给被标注元素一个特定的标签一样,对区间里的被标注元素也需要提供一个特定的标签,当然这个标签可以是一个词语,也可以是具体的一句话。从而实现对于不同语句类别的判断和对不同语句内容的理解。

03

参考报价

我们应该已经有了一个比较明晰的认识,下面想要分享的是数据标注公司在与需求公司进行沟通合作时应该如何更加科学的进行报价。

所有行业的报价都是基于成本,因为数据标注员在数据标注公司的日常运营中成本占比最高,人工自然也就成为了数据标注公司运营中最大的成本因素。

同时数据标注行业与其他劳动密集型行业还有着一定区别。不同于工厂流水线上的工人,数据标注公司所对接的资源公司的需求是千变万化的,这就要求数据标注员需要有很宽阔的视野、较强的理解能力;

不同于从事单一繁重体力劳动的人工,数据标注公司所对接的资源公司对于数据的质量和准确度是否符合模型训练的预期有着非常高的要求,这就要求数据标注员需要有敏锐的观察能力、较强的耐心和一丝不苟的工作态度。

通过上面的分析,我们可以清晰的了解,在数据标注公司的日常运营中人工就是最大的支出。既然人工是数据标注公司最大的支出,那么问题来了,我们应该基于人工从哪些方面进行科学合理的报价呢?

因为员工每日的工时都是固定的,从效率角度出发,所以我们的报价需要从以下几个方面进行综合考量。

数据

这里的数据指的是资源合作方提供的需要标注的各类数据,在基于数据进行成本预估的时候,我们最重要的是需要注意以下2点:

1. 标注时间:这里指的标注时间就是按照资源需求公司的标注方法对图片进行特征的标注,标注的方法可以按照从简单到复杂的难易程度进行排序。

如下所示:2D 拉框<多边型拉框 < LandMark < 点云拉框 < 语义分割 < VR打标,关于上述标注方法详细解释请参考“如何运营一家数据标注公司(数据处理分类篇)”。

同时在标注的基础上,我们还需要对标注对象进行一个分类打标,也就是给每个固定的被标注元素设置一个唯一的标签。按照标签从少到多进行排序,如下所示:

  • 单级唯一标签:比如,图中只需要对人或车等唯一元素属性进行打标,有且只有一个需要进行打标的对象
  • 单级多个标签:比如,图中需要对人、车、动物等多个元素属性进行打标,同时可以存在多个(不超过10个)被标注对象
  • 单级复杂标签:比如,图中需要对众多(超过10个)元素属性进行打标
  • 多级复杂标签:比如,图中需要对人、车等众多元素进行打标的同时需要标注出车的种类,人的行进方向等等

标注时间方面的成本核算就是基于以上两个重要因素,难度越高当然在实际标注中耗费的时间也就越长。

2. 判断时间:这里指的判断时间就是在实际标注前,对应标注元素进行识别和判断,因为篇幅有限,这里对哪种判断更为困难不做过多介绍,希望了解的朋友可以持续关注觉醒向量Blog更新,这里只对影响判断的因素进行一个大致概括,其中包括有:

  • 被标注图片的清晰程度:一般指图中被标注元素是否可以清晰辨别
  • 被标注元素的专业化程度:类似于金融相关专业知识的快速判定、医学影像中病变区域的打标,各类复杂地貌名称的打标
  • 被标注元素关联场景的复杂程度:这里关联场景的复杂程度主要指光线场景(包括逆光、高亮等)、重叠场景(多个被标注元素相互重叠)、颜色场景(只有黑白色)
  • 被标注元素标签的细化程度:这里的细化程度主要指被标注元素与采集镜头形成角度的需要标注出具体角度、被标注元素之间有遮挡关系的需要标注遮挡百分比、被标注元素包含复杂颜色的需要对复杂颜色进行区分等等

判断时间方面的成本核算也是基于上面提到的几点。同样的,判断难度越高,实际操作中花费的时间也就越长。

软件

这里的软件指的是数据标注中的操作工具,在基于软件进行成本预估的时候,我们最重要的是需要注意以下2点:

1. 操作方面这里指标注软件在实际标注过程中操作环境是否流畅,操作功能是否便捷。

2. 统计方面这里指标注软件在标注完成后对实际标注的各类元素的分类统计是否足够精确,对于各个标注员的产能是否能够做到有效统计。

在实际使用标注软件进行标注时,操作环境越流畅、功能越便捷,单位时间的产量也就越高,同时越强大的统计功能也同样可以大大降低大规模标注人员的管理成本

规则

这里指和需求公司获取的相关标注规则,在基于规则进行成本预估的时候,我们最重要的是需要注意以下2点:

1. 规则明确这里指需求公司能够提供完整的规则文档,保证在标注过程中需求边界清晰,不会让标注员在同一个被标注元素的某个方面的判断上左右为难。同时在明确的规则中又分为粗线条的规则和细线条的规则:

  • 粗线条的规则主要指需求方能在一般场景中将标注规则清晰的阐述出来,但是在很多情况下需求方并没有进行过自测和相关标注,在标注中可能出现的若干特殊场景使得一般场景的规则并不适用。
  • 细线条的规则主要指需求方前期同样花费了巨大的精力对相关数据进行标注,同时对各种特殊场景都做出了详细的描述。

2. 规则笼统这里指需求公司在筹备研发某项产品时按照预计的设想进行一个大致的规则整理,需要数据标注公司辅助需求公司在标注的过程中不断完善相关规则

规则的明晰与否直接决定了数据标注生产的连续性,一边对规则进行细化,一边标注就会在实际标注环节走走停停,从而影响标注效率。

沟通

这里指和需求公司之间报价前的沟通,在基于沟通进行成本预估的时候,我们按照沟通成本的从低到高进行排序:

1. 沟通反馈迅速(这里指和需求公司沟通过程中能够做到时时通话,这说明需求公司是有专门负责人对此项目进行对接)

2. 反应良好(这里指和需求公司沟通过程中会有时间延时,一般不超过2个小时,说明需求公司同样有专门负责人,但负责人可能同时负责了多个不同项目)

3. 沟通反应不佳(这里指和需求公司沟通过程中有较长时间延迟,一般超过6个小时,说明需求公司可能没有专门负责人或者专门负责人的工作重心并不在此项目上)

4. 沟通反应较差(这里指和需求公司沟通过程中存在无回复等情况,说明需求公司大概率只是对于项目的合作有一个初步的想法,并没有确定是否需要一定实施)。

良好的沟通是数据标注行业最最重要的一环。良好的沟通可以省去重复、返工等众多的低效行为。同样的,较差的沟通会使数据标注公司在标注的各个环节上成本极大的上升。


内容来源:觉醒向量

原文地址:http://www.awkvector.com/20181208-2/

觉醒向量,专注于为全球人工智能企业提供优质的数据标注服务;通过一流的质量控制体系以及优质的服务态度,持续帮助国内外人工智能企业加快产品迭代速度。

本文分享自微信公众号 - 人工智能头条(AI_Thinker)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-12-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 我猜,你还不知道数据标注公司在做什么吧?

    大多数AI实验室、初创型AI公司在发展初期如果雇佣大量的人力进行数据标注,就不得不面临下面两种处境:

    用户1737318
  • 一起来看看词性标注

    本文根据自己的学习过程以及查阅相关资料的理解,对自然语言基础技术之词性标注进行了相对全面的简绍,包括定义、目前的难点以及常见方法,还推荐了一大波 Python ...

    用户1737318
  • 什么是人工智能高速路上的基石?

    中国科学技术大学博士袁岚峰在不久前的文章中把中国科技在世界的地位大致分为五类。本文中只引用第四类。

    用户1737318
  • 通用文本标注工具 labelme

    一个支持文本类目标注和关键词打分的通用标注工具,为文本分类模型和关键词抽取任务提供训练和测试数据。

    理查德
  • 用深度学习做命名实体识别(一):文本数据标注

    “ 本文是用深度学习做命名实体识别系列的第一篇,通过本文,你将了解如何用brat做文本数据标注。”

    程序员一一涤生
  • 还在手工标注数据?试试Snorkel!

    我知道你已经用上了最先进的深度学习模型,不过,还在人工标注数据吗?这有点过时了!快来了解下Snorkel —— 最新的基于弱监督学习的大规模训练数据标注神器!

    用户1408045
  • 7种常用的数据标注工具

    标注工具是数据标注行业的基础,一款好用的标注工具是提升标注效率与产出高质量标注数据的关键。

    曼孚科技
  • 如何进行数据标注(2)

    现在网络上关于深度学习算法的文章很多,但深度学习其实是数据驱动型。很多时候数据足够好,能给算法开发提供很大的便利。今天来介绍一下如何进行数据标注。

    用户7699929
  • 如何进行数据标注(1)

    现在网络上关于深度学习算法的文章很多,但深度学习其实是数据驱动型。很多时候数据足够好,能给算法开发提供很大的便利。

    用户7699929
  • 文本标注工具介绍

    自然语言处理技术(NLP)在多个领域有着广泛运用,比如情感分析、文本相似度、评论观点抽取、文本分类、词法分析等等,算法模型训练离不开大量标注好的文本,动辄几万条...

    小瓦匠

扫码关注云+社区

领取腾讯云代金券