【AI的正面与侧面】披着光鲜的外衣的“数据民工”

像是一场明星演唱会,舞台上灯光华美,主角激情澎湃,粉丝呐喊欢呼,场面一片火爆,而幕后忙忙碌碌的那些人,who cares,人工智能行业大抵如此。繁荣光鲜的背后,是无数人的默默付出。

“目前人工智能背后还是需要很多的人工工作。”一位创业者曾经这么说,如果作为门外汉,首次听说这样的观点可能会十分费解。

人工智能,无论是从科幻电影还是现实生活中给我们的印象,都是属于高大上的范畴,抑或是人类顶尖人才参与的未来事业,先进的技术会给我们生活带来无尽的便捷和想象力,不应该是大幅解放劳动力的么?怎么还需要投入大量的人力?

所以本篇整理了人工智能不那么智能的一面,这里有一个很少被提及也容易被遗忘的人群,那就是人工智能浪潮下辛苦劳作的“人工”。

人工智能需要数据,高质量的标注数据决定了一家人工智能公司竞争力。通常来说,数据标注得越准确、数量越多,算法模型的效果就越好,自然产品的体验也会更近一步,然而这么多结构化数据哪里来?于是有种产业叫数据工厂。

眼下这些数据工厂业务大多是标注数据,即根据项目方要求,人工为图片、视频和语音内容打标签、做标记。标注好的数据会被人工智能公司用来训练算法模型,然后应用到图像识别、语音识别、动作识别、自动驾驶等不同领域。

小编曾采访过一家专业的数据加工平台,旗下有12家下辖数据工厂及2000余名数据操作员来支持数据的采集、清洗、标记等产品化服务。与专业的数据标注公司业务类似的还有数据众包平台,以百度众包平台为例,号称是有10000+名专职外场数据采集员,5000+在线数据标注人员。

两者的区别在于众包平台上多为互联网网民兼职操作,由于没有受过专业化培训,在质量和数量都难以满足专业化的数据加工需求。

随着人工智能产业热度提升,数据加工厂的业务需求也越来越丰富,标注画面中不同的人脸,标注一段语音中的关键字段等等都是比较常见的数据标注工作;此外还有勾画图片中人体的关节点,将复杂的人体姿态标注成点和线的形式,可以用来训练识别人体体态的模型。

为路况图片中的车辆、摩托车、自行车和行人打上边框,并标注行进方向和是否有遮挡,这类图片多用来训练智能安防系统的识别能力;描绘建筑物的边缘,将静止画面中的大楼标注成不同的色块,这类数据多用在自动驾驶中车辆对环境的认知。

还有负责视频标注的工作,需要从每段视频中抽出 10 帧,标注相近两帧中物体的方向和坐标的变化,这些数据也许会被用来训练机器对物体连贯性的感知,也许用来训练机器预判物体的位置变化。

其中,精细化标注更不是什么容易事,华院数据曾举办过一次大数据应用比赛,在通过卖场货架图片自动计算产品的货架占有率这项测试中,她们拍摄了 1600 多张真实的货架图片作为原始数据,所谓精细化标注,就是货架上每一包紧挨着的零食、泡面,都要延边缘仔细划分。这一千多张图片的标注耗费了 12 个人大半个月时间,负责标注工作的人员几近崩溃。

可以说,现阶段的数据标注是个劳动密集型产业,和南方的普通加工厂基本没什么不同,只不过加工的产品是数据。

包括世界顶尖计算机视觉专家李飞飞参与建立的ImageNet ,是来自 167 个国家的 48940 名工作者,花费了 2 年时间,清理、分类、标记了近十亿张通过互联网搜集到的图片,才得到这个拥有 1,500 万张标注图片的数据集,其所耗费的时间与人力可想而知。

除了数据标注工作之外,前不久,智能音箱背后的声优也浮出水面,2014年以前行业都是采用参数合成的技术,提取出声音的特征模拟生成,这需要声优的声音更加端庄、严肃。彼时的配音人员大多是播音员、各大院校播音主持专业学生、主持人等,录音库只需要4、5千句就行。但是从2014年以后,为了让合成的声音更自然,业内都采用了拼接算法,提取出原声中的片段进行合成,这就要求更大的数据量,更多的样本。

以天猫精灵智能音箱为例,幕后声优的语音录制时间长达两个月,产品发布前已经录制20多万字,并且还在进行中,整体是要做到2万句,30万字的目标。

为智能产品配音和影视剧完全不一样,需要绝对的稳定性,语速要保持一致,而且情绪也不能有波动,因此效率并不高,声优每天需要录三到四个小时,一个小时大概只有100句话左右,能不能通过还得看录音师的判断。

据天猫精灵配音钰莹介绍,300-400句/天是一个配音演员比较正常的工作量,但是一开始的时候工作强度比较大,她一天录了500-600句,一连录了8天之后她的嗓子就发炎了,只能在家休息。

在大部分人看来,人工智能是个高级又轻松的概念,未来的一切都将因为AI技术的普及而变得更简单、更美好、更智能。

稍微熟悉一点,对人工智能的印象会变成工程师、科学家们口中的专有名词,GPU阵列、神经网络、深度学习、自然语言处理、迁移学习、计算机视觉等等一大串相关技术理论。

而在产业链的最底层是更为现实的一面,一批批身份各异,从未被提起的人们成为了新时代的数据民工。人工智能,仍需要大量的人工劳动给养,其实并不高大上。

原文发布于微信公众号 - 钱塘大数据(qtbigdata)

原文发表时间:2017-08-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

图说2016深度学习十大指数级增长

【新智元导读】深度学习火热不是假象,以下的十个指数级增长趋势证明:深度学习在过去的一年内获得了极快的发展,已经成为当下人工智能的“顶梁柱”。本文从 ImageN...

37212
来自专栏腾讯云安全的专栏

腾讯云亮相 KDD2018,深度学习催化天御反欺诈系统高识别率

近日, KDD x TAIC 2018大会在英国伦敦举行。腾讯云金融风控业务研发负责人李超博士受邀出席大会,并在会上发表了题为《Cloud Security,...

7.6K6
来自专栏新智元

【重磅】ImageNet 挑战赛落幕,中国团队包揽冠军 | 李飞飞专访谈计算机视觉先驱

【新智元导读】世界著名的 ImageNet 大规模图像识别挑战赛(ILSVRC2016)今天公布赛果,来自中国的团队大放异彩,包揽多个项目的冠军。新智元日前...

3448
来自专栏AI科技评论

动态 | 2016谷歌教授科研奖公布,机器学习成最大赢家

AI科技评论消息,谷歌日前公布了2016年谷歌教授科研奖(Google Faculty Research Awards)。 从2005年起,谷歌每年都会为在世界...

3908
来自专栏机器之心

特写|人工智能背后的人

机器之心原创 作者:虞喵喵 在大部分人看来,人工智能是个有些「科幻」的词汇,代表小说电影中和人类长相相似、或温柔或冷酷的机器人。 稍微熟悉一点,这份印象又变成冷...

3518
来自专栏AI科技评论

金句频出,16位大神在ICML上展开了一场机器学习的Great Debates

AI 科技评论按:机器学习圈子这几天发生了一件有趣的事,一群知名学者在 ICML 2018 上抱着吵架(辩论)的心思坐到一起,结果却没能吵起来。

1414
来自专栏大数据文摘

为应对评分机器人,美国的大学生也开始背作文模版了

“(某一年)(写你最喜欢的大学)的(添加一个有声望的名字)教授做了关于(此处摘要辩论的关键)的研究,研究人员发现(在这里添加令人信服的数据),并且(这里提供更多...

850
来自专栏量子位

乔丹LeCun李开复隔空对话:我们对智能一无所知;AI研究的12大趋势

三位AI领域的标志性人物:乔丹(Michael I. Jordan)、杨立昆(Yann LeCun)、李开复,刚刚结束了一场隔空对话。

872
来自专栏DT数据侠

你们对餐馆的吐槽,也许能挽救一场食品安全危机

如何解决老生常谈的食品安全问题?大数据时代,你的一句点评都可能派上用场。SODA大赛获奖团队“吃货俱乐部——评安食客”,就利用食药监提供的数据以及从大众点评爬取...

640
来自专栏机器学习算法与Python学习

369亿估值的AI市场下,中国AI学习者的野心与实力

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 最近几天,在 2018 CES科技盛...

35010

扫码关注云+社区