【AI的正面与侧面】披着光鲜的外衣的“数据民工”

像是一场明星演唱会,舞台上灯光华美,主角激情澎湃,粉丝呐喊欢呼,场面一片火爆,而幕后忙忙碌碌的那些人,who cares,人工智能行业大抵如此。繁荣光鲜的背后,是无数人的默默付出。

“目前人工智能背后还是需要很多的人工工作。”一位创业者曾经这么说,如果作为门外汉,首次听说这样的观点可能会十分费解。

人工智能,无论是从科幻电影还是现实生活中给我们的印象,都是属于高大上的范畴,抑或是人类顶尖人才参与的未来事业,先进的技术会给我们生活带来无尽的便捷和想象力,不应该是大幅解放劳动力的么?怎么还需要投入大量的人力?

所以本篇整理了人工智能不那么智能的一面,这里有一个很少被提及也容易被遗忘的人群,那就是人工智能浪潮下辛苦劳作的“人工”。

人工智能需要数据,高质量的标注数据决定了一家人工智能公司竞争力。通常来说,数据标注得越准确、数量越多,算法模型的效果就越好,自然产品的体验也会更近一步,然而这么多结构化数据哪里来?于是有种产业叫数据工厂。

眼下这些数据工厂业务大多是标注数据,即根据项目方要求,人工为图片、视频和语音内容打标签、做标记。标注好的数据会被人工智能公司用来训练算法模型,然后应用到图像识别、语音识别、动作识别、自动驾驶等不同领域。

小编曾采访过一家专业的数据加工平台,旗下有12家下辖数据工厂及2000余名数据操作员来支持数据的采集、清洗、标记等产品化服务。与专业的数据标注公司业务类似的还有数据众包平台,以百度众包平台为例,号称是有10000+名专职外场数据采集员,5000+在线数据标注人员。

两者的区别在于众包平台上多为互联网网民兼职操作,由于没有受过专业化培训,在质量和数量都难以满足专业化的数据加工需求。

随着人工智能产业热度提升,数据加工厂的业务需求也越来越丰富,标注画面中不同的人脸,标注一段语音中的关键字段等等都是比较常见的数据标注工作;此外还有勾画图片中人体的关节点,将复杂的人体姿态标注成点和线的形式,可以用来训练识别人体体态的模型。

为路况图片中的车辆、摩托车、自行车和行人打上边框,并标注行进方向和是否有遮挡,这类图片多用来训练智能安防系统的识别能力;描绘建筑物的边缘,将静止画面中的大楼标注成不同的色块,这类数据多用在自动驾驶中车辆对环境的认知。

还有负责视频标注的工作,需要从每段视频中抽出 10 帧,标注相近两帧中物体的方向和坐标的变化,这些数据也许会被用来训练机器对物体连贯性的感知,也许用来训练机器预判物体的位置变化。

其中,精细化标注更不是什么容易事,华院数据曾举办过一次大数据应用比赛,在通过卖场货架图片自动计算产品的货架占有率这项测试中,她们拍摄了 1600 多张真实的货架图片作为原始数据,所谓精细化标注,就是货架上每一包紧挨着的零食、泡面,都要延边缘仔细划分。这一千多张图片的标注耗费了 12 个人大半个月时间,负责标注工作的人员几近崩溃。

可以说,现阶段的数据标注是个劳动密集型产业,和南方的普通加工厂基本没什么不同,只不过加工的产品是数据。

包括世界顶尖计算机视觉专家李飞飞参与建立的ImageNet ,是来自 167 个国家的 48940 名工作者,花费了 2 年时间,清理、分类、标记了近十亿张通过互联网搜集到的图片,才得到这个拥有 1,500 万张标注图片的数据集,其所耗费的时间与人力可想而知。

除了数据标注工作之外,前不久,智能音箱背后的声优也浮出水面,2014年以前行业都是采用参数合成的技术,提取出声音的特征模拟生成,这需要声优的声音更加端庄、严肃。彼时的配音人员大多是播音员、各大院校播音主持专业学生、主持人等,录音库只需要4、5千句就行。但是从2014年以后,为了让合成的声音更自然,业内都采用了拼接算法,提取出原声中的片段进行合成,这就要求更大的数据量,更多的样本。

以天猫精灵智能音箱为例,幕后声优的语音录制时间长达两个月,产品发布前已经录制20多万字,并且还在进行中,整体是要做到2万句,30万字的目标。

为智能产品配音和影视剧完全不一样,需要绝对的稳定性,语速要保持一致,而且情绪也不能有波动,因此效率并不高,声优每天需要录三到四个小时,一个小时大概只有100句话左右,能不能通过还得看录音师的判断。

据天猫精灵配音钰莹介绍,300-400句/天是一个配音演员比较正常的工作量,但是一开始的时候工作强度比较大,她一天录了500-600句,一连录了8天之后她的嗓子就发炎了,只能在家休息。

在大部分人看来,人工智能是个高级又轻松的概念,未来的一切都将因为AI技术的普及而变得更简单、更美好、更智能。

稍微熟悉一点,对人工智能的印象会变成工程师、科学家们口中的专有名词,GPU阵列、神经网络、深度学习、自然语言处理、迁移学习、计算机视觉等等一大串相关技术理论。

而在产业链的最底层是更为现实的一面,一批批身份各异,从未被提起的人们成为了新时代的数据民工。人工智能,仍需要大量的人工劳动给养,其实并不高大上。

原文发布于微信公众号 - 钱塘大数据(qtbigdata)

原文发表时间:2017-08-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

INTERFACE | 从技术到产品,搜狗为我们解读了神经机器翻译的现状

INTERFACE 分享者:陈伟、李健涛 机器之心报道 参与:李泽南 3 月 12 日,搜狗正式在线上平台发布了「旅行翻译宝」。这款随身翻译设备结合了搜狗神经...

3594
来自专栏新智元

【独家】依图科技朱珑:如何颠覆谷歌优势,技术公司三层次VIE

作者:朱珑,依图科技联合创始人 【新智元导读】人工智能浪潮大起,如何判断技术和产业发展?依图科技联合创始人朱珑认为:团队的技术实力由最强的领军人物决定,AI新时...

34315
来自专栏量子位

美图AI绘画机器人上线,小姐姐们,新一轮头像可以换起了

李根 假装发自 Amoy 量子位 报道 | 公众号 QbitAI ? 你是不是也想要一张插画风格的头像?又要像你,又要插画风格、彩绘色系? OK,美图AI绘...

3375
来自专栏新智元

资源 | 人工智能、深度学习、机器学习有什么区别?DL 应用案例全解析(下载)

【新智元导读】对于希望从战略层面洞察人工智能这一领域的企业领袖来说,insideBIGDATA Guide to Deep Learning & Artific...

4215
来自专栏量子位

脑子瓦特?记忆力受损?试试AI调控的闭环电击颞叶疗法

Root 编译整理 量子位 出品 | 公众号 QbitAI 发际线后退就算了。 发现自己连记忆力也开始下降? 你可能需要电电自己的脑子了。 2月6号,宾大研究团...

2547
来自专栏量子位

同样是认猫,这家小公司居然比Google强?对,只用几张图片

△ 来源:Bloomberg 量子位 李林 | 整理编译 认猫,是人工智能技术发展的第一推动力。 2012年,吴恩达和Jeff Dean带领的Google Br...

3319
来自专栏大数据挖掘DT机器学习

【思考】实施数据挖掘项目考虑的问题

谈到数据挖掘应从以下三方面加以考虑:一是用数据挖掘解决什么样的商业问题,二是为进行数据挖掘所做的数据准备,三是数据挖掘的各种分析算法。 ...

3355
来自专栏量子位

算法眼中的世界是什么样子?他们用一些彩色方块画了出来

安妮 编译自 Wired 量子位 出品 | 公众号 QbitAI 从数字助手、加密数字货币到自动驾驶汽车,算法在生活中无处不在。 这是个抽象的概念,对于不了解人...

3368
来自专栏量子位

英特尔研发神经元AI处理器,模仿大脑功能,无需训练数据集

陈桦 问耕 编译整理 量子位 出品 | 公众号 QbitAI ? 刚刚,黄仁勋在北京跑步上台演讲,庄严宣布:CPU的时代结束了。 好巧,英特尔说:不单CPU不行...

2684
来自专栏AI科技评论

洞见|第四范式CEO戴文渊:大数据不再是AI发展瓶颈,未来企业赢在“维度”

雷锋网按:今天大家讨论比较多的人工智能,包括深度学习等这些技术为什么会对我们有帮助?究竟背后在什么地方能够去改变这个世界?在今天于深圳举办的中国人工智能产业大会...

3547

扫描关注云+社区