专栏首页曼孚科技曼孚科技:数据标注,AI背后的百亿市场

曼孚科技:数据标注,AI背后的百亿市场

1.

两年前,来自山东农村的王磊成为了一位数据标注员。彼时的他,工作内容非常简单且枯燥:识别图片中人的性别。

然而,一段时间之后,他注意到分配给他的任务开始变得越来越复杂:从识别性别到年龄,从框选2D物体到3D物体,图片场景从白天到深夜,甚至出现了多雾天气,用他自己的话来形容,就是“越来越奇怪了”。

小赵今年25岁,别看年龄不大,但是她已经做了足足8年的餐厅服务员。她的人生计划是再做几年服务员,攒上一笔钱就回到老家开一家只属于自己的餐厅。

然而,2017年随着她所在的餐厅因质检不合格而关停后,她的人生也因此发生了重大改变。她本想再找一家餐厅,继续从事“老本行”,然而身边的一位朋友却给小赵推荐了一个新的职业:数据标注员。

她决心尝试一下。

两年之后的现在,小赵已经成为了一家数据标注公司的标注组组长。“我们会把原始数据分配给一个标注组,通常包括10个标注员和3个质检员。这些专门的标注小组是经过特别训练的,得益于标注工具的技术领先性,我们可以以95%的准确率在8天左右的时间完成大概10,000张自动驾驶车道检测的标注工作。”

2.

现如今,像王磊、小赵这样的普通数据标注员在国内已不下上百万。

数据标注员有时候会被称为“AI劳工”或者是“AI领域看不见的工人”。他们标注的数据会用来训练机器学习模型,然后我们才能享受到通过机器学习赋能的产品和服务。

三十年以前机器视觉系统还几乎不能识别手写的数字,但是今天人工智能系统已经可以控制自动驾驶汽车、在病理幻灯片中检测肿瘤细胞,甚至审阅法律合同。先进的算法和强大的底层计算资源,以及精确的标准数据集,在人工智能的复兴中起到了至关重要的作用。

相关数据标注页面对数据标注需求的持续增长催生了专业数据服务企业的蓬勃发展。以小赵的主要合作企业曼孚科技为例,曼孚科技旗下拥有超过10万+像小赵这样经过严格训练的标注、质检人员,曼孚科技所研发的数据标注工具每天会被数以万计的标注员所操作。随着数据服务公司规模的扩大,相关企业的估值也水涨船高。

旧金山一家名为Scale的AI企业获得了1亿美金的投资,抢占了今夏科技圈的头条。值得注意的是,这家公司是由一位仅仅22岁的MIT毕业生于2016年创立的,现在Scale已经成为了硅谷最受追捧的AI初创企业之一。Scale AI的高估值归功于他们在自动驾驶领域所提供的多样性数据标注服务。Waygo、Lyft、Zoox、Cruise和Toyota研究所都是他们的客户。

TechCrunch报告称Scale AI旗下有将近30,000的签约标注员提供文本、语音、图像和视频的数据标注服务。另外一家热门的数据标注公司是Mighty AI(以前称为Spare5).今年夏天他们被共享驾驶巨头Uber收购,此举被视为Uber推动自身自动驾驶技术发展的关键一步。

自动驾驶技术这些新兴的数据标注公司有一些共同点:他们都以自己能提供高质量数据标注服务即经过严格质量控制的专项领域数据而区别于Mturk等传统的数据众包平台;他们的众包标注员都是在全世界范围内经过严格筛选并且接受过专业的培训与管理;此外,这些公司内部的算法则是通过不断研究如何应用算法模型来提高标注效率。

AI公司的训练数据除了来自内部的数据标注团队,通常还非常依赖这些可控、高质量的数据标注服务提供商。Synced被告知,有一些自动驾驶企业每个月需要支付给数据标注企业几百万美金用于数据标注服务。

2019年出现了大批可用的自动驾驶标注数据集。Waygo、Ford自动驾驶分支Argo AI和Lyft都开源了高质量的自动驾驶数据集,这对于高度依赖数据的自动驾驶技术研究的发展是一个非常好的信号。

相比构建一个图像分类数据集,构建一个高质量的自动驾驶数据集要复杂的多。Waygo Open Dataset有16.7个小时的视频数据、3,000个驾驶场景、600,000视频帧、将近2500万3D多边形和2200万2D多边形标注,而这只是Waygo大量私有自动驾驶数据集中的一小部分。

中国领先的自动驾驶服务提供商Baidu Apollo告诉Synced一个典型的高质量自动驾驶数据集一般包括:---像素级语义标注---3D语义标注---像素级物体类别标注(pixel-wise object instance annotation)---精准道路分割---移动物体关系标注---高精度的GPS/IMO信息自动驾驶这个领域本身的一些特质,要求自动驾驶相关企业必须制定严格的数据标注标准。当一个语言模型出错时,最多只是句子不通顺。但是一个自动驾驶数据集的错误可能会造成自动驾驶车辆在行驶过程中出现灾难性的后果。

去年UC Berkeley开源了包括100K驾驶录像视频的BDD100K数据集,成为了当时最大的自动驾驶数据集。Fisher Yu,BDD100K的主要贡献者之一,告诉Synced,出于对传统众包平台糟糕的标注数据质量的担忧,他们选择把标注工作外包给了第三方的数据服务企业。“传统众包标注员很难交付自动驾驶所需的高质量,高精度的分割数据集,所以企业一般依赖公司内部的标注团队或者第三方的数据标注服务企业”,Yu这样告诉记者,“Garbage in, garbage out”(没有高精度训练数据,就没有高精度模型产出)。

3.

横店影视城,也被称为“中国的好莱坞”,是亚洲最大的电影拍摄基地。它位于浙江省中部,由数千公里的农田改造而成,数以千计的影视工作者在这里拍摄电影、电视剧以及网络剧。曼孚科技就在这里设立了一个基地。不过他们不是在拍摄电视剧,而是用来专门拍摄和记录演员的面部表情——大笑,哭泣,愤怒等等,这些合法采集的数据可以被AI公司拿来做面部关键点标注的素材。

曼孚科技成立于2018年,随着人工智能在中国的迅猛发展,团队成员已经由最初的几个人扩展到几十人,同时曼孚科技还与数以万计的全职标注员合作。另外,曼孚科技还设有专门的算法团队致力于把最新的AI技术应用到数据标注中。

中国的科技公司在高质量标注数据对算法的重要性方面有着深刻的理解。一些企业在数据标注的精度、复杂性、时间等方面有了更高的要求。去年众多数据标注企业的倒下与他们不能满足这些新的要求有很大关系。曼孚科技的CEO章越(以下简称“章”)告诉Synced:“回到2015年和2016年,AI企业通过开源数据集或者爬取网络上公开数据训练出来的AI模型就可以获得融资。但是如果他们想把算法应用在现实场景中,就必须提高标注数据质量。”

章以面部关键点识别为例介绍说:“几年以前,标注员只需要在人脸上标注几个点就可以了,但是现在面部关键点标注需要206点:每个眉毛上8个,嘴唇个20多个,脸颊17个等等。”章继续说道:“领域内的专家在标注中发挥了关键的作用。那些廉价的标注员一般只能标注不需要什么背景知识的数据,对于法律合同分类,医学图像和科学文献等,必须要有相关领域的专业知识才可以做。一般情况下,有驾驶经验的人比没有驾驶证的人,可以更好更有效的标注自动驾驶的数据集。相同的,有医学,病理学,放射学或者其他医学方面有学术背景的人,可以更准确的标注医学图像。但是领域专家的使用成本可不便宜。”

4.

Wilson Pang是Appen的首席技术官,Appen是一家位于悉尼的标注数据交易公司,拥有180多种语言的专业知识,在130多个国家拥有超过100万名熟练标注员。Pang告诉Synced,当公司购买数据时,成本不再是最重要的决定因素。

“如果数据质量不合格,AI模型的性能将不尽如人意。 当发生这种情况时,人们通常需要再次收集和标注数据,这会浪费大量数据科学家的时间,并增加训练这些模型的硬件成本。”“但最重要的是,当公司无法得到高质量的训练数据时,他们无法及时推出算法模型,也就不能赶上竞争对手的进度 ”Pang说。

今年3月,Appen以3亿美元的价格收购了位于旧金山的高质量数据标注公司FigureEight(以前称为Crowdflower)。5.鲍里索夫在莫斯科国立大学获得计算机科学博士学位。两年前,他联合创立了Supervise.ly,这是一家位于硅谷的创业公司,该公司研发的软件旨在用深度学习模型提高数据标注的效率。

Supervise.ly平台现已被超过15,000家公司和工程师使用,主要来自农业、建筑、消费电子、医疗保健和自动驾驶汽车等行业。Supervisely.ly是过去几年数据标注潮流中涌现出的众多公司之一。

Borisov说最近几年复杂耗时的数据注释工作(如头发分割和视频标注)的需求激增,推动了公司的快速发展。“在头发分割的过程中需要耗费多少标注员并不重要,重要的是高质量准确像素级的标注。”

数据标注软件公司Watchful的联合创始人Singleton说,大多数需要高质量标注数据的公司在数据科学和机器学习专业知识方面本身相对不成熟,而且发展人工智能项目的预算也有限。

相关数据标注页面“数据标注往往是由一个小型并且已经工作量饱和的数据团队完成的,以致于他们不能专心的研究算法模型,而这个才是真正有意义的工作”,Singleton说。

对于Watchful和Supervise.ly,这些中小型客户代表了一个不断扩大的机器学习工具市场,这些工具可以帮助他们从有限数据中提取尽可能多的信息。根据Grand View Research的一项新研究,全球数据标注工具的市场规模预计在2025年将达到16亿美元。机器学习辅助数据标注的方式有很多。

Borisov描述了一种“人在环”的图像分割方法,其中用户首先在未标记图像上应用预训练过的分割模型来自动生成大概的轮廓。然后用户手动调整轮廓。其中一个例子是Polygon RNN,这是由多伦多大学和NVIDIA开发的一个研究项目,目的是为分割数据集提供高效标注。Supervise.ly还设计了一个交互式标注模式。用户首先在一个物体周围画一个框。然后,模型会自动创建粗略的轮廓并预测其类/域。用户可以通过简单的鼠标点击来调整模型的预测 :绿色表示正确的预测;红色表示错误的预测。

Kaggle首席技术官Ben Hamner表示,主动学习是数据标注领域的的另一个热门话题。在最近在旧金山举行的种子奖活动中,Hamner告诉Synced“使用主动学习是为了辨别哪些数据点需要分类或值得标注。这样我们就只需要对机器尚未了解或不确定的数据进行分类。”

6.

学术界在推动数据标注方面的努力:“我怎样才能使用你刚才介绍的数据标注工具?”Huan Ling说这是他今年6月在加利福尼亚州长滩举行的顶级人工智能会议计算机视觉和模式识别(CVPR)2019中听到的最常见问题。

Ling是多伦多大学Vector Institute的研究生。他的研究团队最近发表了使用Curve-GCN进行快速交互式物体标注的文章,该文章已被CVPR 2019接收。

该研究的一项重大创新是使用图形卷积网络(GCN)自动勾勒出物体的轮廓。在实验中,这种端到端框架表现优于目前所有自动和交互的模型。Ling的顾问是Sanja Fidler教授,他是一位受人尊敬的研究员,带领NVIDIA的多伦多AI实验室。她的团队在对象分割和图像标注方面投入了大量精力,并为PolyGon RNN及其改进版PolyGon RNN ++的创建做出了重要贡献。

新的GCN方法比PolyGON RNN ++快10倍(在自动模式下)和100倍(在交互模式下)。 Ling的CVPR2019报告会议受到与会者的热烈欢迎。

与Fidler教授的团队一样,谷歌、Adobe、苏黎世联邦理工学院和其他大型AI实验室也对图像和视频标注非常感兴趣,谷歌的Open Image,Adobe的交互式视频分割以及ETH的Dextr代表着对这个领域的强大投资力量。

Ling告诉Synced,数据标注中的难题主要是3D标注和视频标注。 Appen CTO Pang表示,目前基于机器学习的对象跟踪算法已经可以辅助视频标注。标注员在第一帧上标注对象,然后算法通过后续帧跟踪这些对象。标注员只需在算法跟踪功能不正确时调整标注。该方法比没有辅助标注时快100倍。

“监督学习仍然是人工智能解决方案最有效的方法,尤其是那些创新性的系统,而且我认为这种趋势短期不会改变。”

原文链接:https://www.toutiao.com/i6759503119299641863/

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 数据标注,自动驾驶汽车的新“引擎”

    伴随着计算机视觉技术的日臻成熟,出行生态不断智能化,这其中典型的应用场景就是汽车自动驾驶。

    曼孚科技
  • 孚能科技带伤IPO:新能源电池这块肉没那么好啃

    新能源汽车的战火正在从末端快速燃烧至产业链上中游,致使资本动作加快。近日,新能源电池动力方案供应商孚能科技已步入申购阶段,科创板登陆日期临近。

    刘旷
  • 奇瑞采用英伟达GPU,将实现L3自动驾驶

    Root 编译整理 量子位 出品 | 公众号 QbitAI 汽车制造商奇瑞,将会使用德国采埃孚ProAI自动驾驶系统,以及英伟达专为无人车设计的DRIVE X...

    量子位
  • 3000亿美元!腾讯市值再创新高的背后,这项技术功不可没

    镁客网
  • AI一分钟|百度与中国联通成立“5G+AI联合实验室”;SpaceX将向国际空间站发送AI机器人

    在 2018 世界移动大会上,由百度与中国联通共同发起的“5G+AI 联合实验室”正式揭牌成立。双方将充分发挥技术和网络优势,共同致力于 5G、车联网、AI 等...

    AI科技大本营
  • 优必选和曼城母公司收购四川九牛,瞄准的是科技+体育的趋势

    2月20日,优必选宣布联手城市足球集团和中国健腾体育产业基金收购四川九牛足球俱乐部。做AI机器人的优必选,牵头收购足球俱乐部,有人看来这有点不务正业,朋友圈干脆...

    罗超频道
  • 携手合作伙伴,腾讯青少年人工智能教育宣布产品、内容、工具三大升级

    4月20日,由腾讯教育主办的第二届MEET教育科技创新峰会(简称“MEET教育科技峰会”)在北京举办,在“青少年人工智能教育分论坛”上,腾讯宣布升级“青少年人...

    鹅老师
  • 投融资汇总 | 本周(8.05-8.11)燧原科技创立5个月即获得亿元级融资

    本周硬科技领域投融资事件一共45起,人工智能领域发生22起融资事件,占比49%;区块链领域发生13起融资事件,占比29%;生物医疗和光电芯片领域分别发生3起融资...

    镁客网
  • 每次都能盈利,自己学会抄底,这个AI股神把顶级对冲基金吓尿了

    李杉 夏乙 编译整理 量子位 出品 | 公众号 QbitAI 作为一家全球顶级对冲基金的CEO,埃利斯(Luke Ellis)早已习惯行走在危险边缘,“我从不知...

    量子位
  • Perceptln获三星数百万美元投资,将切入自动驾驶领域

    李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI Perceptln,一家不算完全陌生的公司。 量子位曾先后两次提过这家位于硅谷的华人背景公司。一次...

    量子位
  • 港股2017年表现全球最好,区块链将助推新经济牛市?

    2017年,不论是美股还是港股,整体表现都十分亮眼。美股道琼工业指数、标普500指数和纳斯达克指数涨幅都在20%左右或更高,创造了2013年以来的涨幅新高。港股...

    罗超频道
  • 科大讯飞:百亿营收难解AI巨头心慌

    近来由于疫情的影响,两大股市的情况备受关注。而现在美股和A股处在一个涨上去,另一个又跌下去的循环中,两大股市的频繁动荡,也反应了众多企业在突如其来的疫情当中日子...

    金融外参
  • 响铃:陆奇下船、AI与Feed上道,股价波动只会是百度的小插曲

    陆奇的离职让百度的股价着实喝了一壶,连续一个多月的上涨迎来了一个大的下挫,股价一个交易日跌去一成。

    曾响铃
  • 早报:中国网络直播用户规模年底将达3.92亿

    1、新设网络小贷被叫停,真正持有网络小贷牌照的仅几十家机构 近日,设在央行的互联网金融风险专项整治工作领导小组办公室与设在银监会的P2P网贷风险专项整治工作领...

    用户1335017
  • 医美AI的商业逻辑

    计算机视觉、人工智能、大数据......吴博身上的标签,似乎通通与美业无关。而如今,仅用了一年时间,他已和将近400家美业机构建立了合作关系。

    AI掘金志
  • 1分钟链圈 |纽约大学经济学家:比特币是胡说,只是吸引傻瓜!网易:拿下数字货币钱包市场 有望成为区块链版的「支付宝」

    区块链大本营
  • [编程经验] 拉勾网爬虫数据的后续处理

    上一篇我们介绍了如何爬拉勾的数据,这次介绍一下如何分析爬下来的数据,本文以自然语言处理这个岗位为例。 上次那个爬虫的代码有一点问题,不知道大家发现没有,反正也没...

    用户1622570
  • 附录 人工智能2020年-2805年

    mixlab
  • 数据已成为全球最值钱资源,资源垄断如何监管?

    大数据文摘

扫码关注云+社区

领取腾讯云代金券