【AI的正面与侧面】披着光鲜的外衣的“数据民工”

像是一场明星演唱会,舞台上灯光华美,主角激情澎湃,粉丝呐喊欢呼,场面一片火爆,而幕后忙忙碌碌的那些人,who cares,人工智能行业大抵如此。繁荣光鲜的背后,是无数人的默默付出。

“目前人工智能背后还是需要很多的人工工作。”一位创业者曾经这么说,如果作为门外汉,首次听说这样的观点可能会十分费解。

人工智能,无论是从科幻电影还是现实生活中给我们的印象,都是属于高大上的范畴,抑或是人类顶尖人才参与的未来事业,先进的技术会给我们生活带来无尽的便捷和想象力,不应该是大幅解放劳动力的么?怎么还需要投入大量的人力?

所以本篇整理了人工智能不那么智能的一面,这里有一个很少被提及也容易被遗忘的人群,那就是人工智能浪潮下辛苦劳作的“人工”。

人工智能需要数据,高质量的标注数据决定了一家人工智能公司竞争力。通常来说,数据标注得越准确、数量越多,算法模型的效果就越好,自然产品的体验也会更近一步,然而这么多结构化数据哪里来?于是有种产业叫数据工厂。

眼下这些数据工厂业务大多是标注数据,即根据项目方要求,人工为图片、视频和语音内容打标签、做标记。标注好的数据会被人工智能公司用来训练算法模型,然后应用到图像识别、语音识别、动作识别、自动驾驶等不同领域。

小编曾采访过一家专业的数据加工平台,旗下有12家下辖数据工厂及2000余名数据操作员来支持数据的采集、清洗、标记等产品化服务。与专业的数据标注公司业务类似的还有数据众包平台,以百度众包平台为例,号称是有10000+名专职外场数据采集员,5000+在线数据标注人员。

两者的区别在于众包平台上多为互联网网民兼职操作,由于没有受过专业化培训,在质量和数量都难以满足专业化的数据加工需求。

随着人工智能产业热度提升,数据加工厂的业务需求也越来越丰富,标注画面中不同的人脸,标注一段语音中的关键字段等等都是比较常见的数据标注工作;此外还有勾画图片中人体的关节点,将复杂的人体姿态标注成点和线的形式,可以用来训练识别人体体态的模型。

为路况图片中的车辆、摩托车、自行车和行人打上边框,并标注行进方向和是否有遮挡,这类图片多用来训练智能安防系统的识别能力;描绘建筑物的边缘,将静止画面中的大楼标注成不同的色块,这类数据多用在自动驾驶中车辆对环境的认知。

还有负责视频标注的工作,需要从每段视频中抽出 10 帧,标注相近两帧中物体的方向和坐标的变化,这些数据也许会被用来训练机器对物体连贯性的感知,也许用来训练机器预判物体的位置变化。

其中,精细化标注更不是什么容易事,华院数据曾举办过一次大数据应用比赛,在通过卖场货架图片自动计算产品的货架占有率这项测试中,她们拍摄了 1600 多张真实的货架图片作为原始数据,所谓精细化标注,就是货架上每一包紧挨着的零食、泡面,都要延边缘仔细划分。这一千多张图片的标注耗费了 12 个人大半个月时间,负责标注工作的人员几近崩溃。

可以说,现阶段的数据标注是个劳动密集型产业,和南方的普通加工厂基本没什么不同,只不过加工的产品是数据。

包括世界顶尖计算机视觉专家李飞飞参与建立的ImageNet ,是来自 167 个国家的 48940 名工作者,花费了 2 年时间,清理、分类、标记了近十亿张通过互联网搜集到的图片,才得到这个拥有 1,500 万张标注图片的数据集,其所耗费的时间与人力可想而知。

除了数据标注工作之外,前不久,智能音箱背后的声优也浮出水面,2014年以前行业都是采用参数合成的技术,提取出声音的特征模拟生成,这需要声优的声音更加端庄、严肃。彼时的配音人员大多是播音员、各大院校播音主持专业学生、主持人等,录音库只需要4、5千句就行。但是从2014年以后,为了让合成的声音更自然,业内都采用了拼接算法,提取出原声中的片段进行合成,这就要求更大的数据量,更多的样本。

以天猫精灵智能音箱为例,幕后声优的语音录制时间长达两个月,产品发布前已经录制20多万字,并且还在进行中,整体是要做到2万句,30万字的目标。

为智能产品配音和影视剧完全不一样,需要绝对的稳定性,语速要保持一致,而且情绪也不能有波动,因此效率并不高,声优每天需要录三到四个小时,一个小时大概只有100句话左右,能不能通过还得看录音师的判断。

据天猫精灵配音钰莹介绍,300-400句/天是一个配音演员比较正常的工作量,但是一开始的时候工作强度比较大,她一天录了500-600句,一连录了8天之后她的嗓子就发炎了,只能在家休息。

在大部分人看来,人工智能是个高级又轻松的概念,未来的一切都将因为AI技术的普及而变得更简单、更美好、更智能。

稍微熟悉一点,对人工智能的印象会变成工程师、科学家们口中的专有名词,GPU阵列、神经网络、深度学习、自然语言处理、迁移学习、计算机视觉等等一大串相关技术理论。

而在产业链的最底层是更为现实的一面,一批批身份各异,从未被提起的人们成为了新时代的数据民工。人工智能,仍需要大量的人工劳动给养,其实并不高大上。

原文发布于微信公众号 - 钱塘大数据(qtbigdata)

原文发表时间:2017-08-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏镁客网

虚拟现实教导机器人工作?Kindred正在将VR和AI结合

1082
来自专栏新智元

【阿里算法专家】深度学习将业界技术迭代提升100倍,GraphDL 应用广阔

【新智元导读】IJCAI 2018 现场,阿里妈妈以 Ad Tech 为主题举办了 Workshop,阿里妈妈资深算法专家朱小强、高级算法专家林伟,分享了将深度...

1033
来自专栏新智元

文字识别刷新世界纪录,海康威视浦世亮新智元“AI春节”解密安防大数据 | 新智元峰会演讲

【新智元导读】在3月27日举行的中国“AI春节”——2017新智元开源·生态AI技术峰会上,海康威视研究院院长浦世亮发表演讲《安防大数据驱动下的智慧生活》,介绍...

36812
来自专栏新智元

DeepMind医疗领域大突破:AI眼病诊断工具堪比专家,准确率达94%!

【新智元导读】Deepmind与英国NHS旗下的医院合作开发了一款AI眼部诊断工具,通过对眼部OCT图像的扫描,可识别出50多种威胁到视力的眼科疾病,准确率高达...

682
来自专栏前沿科技

中兴智能视觉大数据:未来五年人脸识别市场规模将保持年均25%的增长速度

中兴智能视觉大数据报道:人脸识别,是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸...

2115
来自专栏AI科技评论

百度IDL主任林元庆解读:人工智能技术研发的四大支柱

近日,百度深度学习实验室主任林元庆在百度年终媒体分享会上做了《看懂AI-百度技术开放日》的演讲,从客观层面阐述了人工智能技术研发的四大支柱,为我们呈现了让人工智...

35513
来自专栏大数据文摘

2017败北清单:人工智能在这些游戏中战胜了人类

1346
来自专栏新智元

深度强化学习、GAN与多巴胺对撞:新智元阿里巴巴“AI 智能体”认知研讨会干货

【新智元导读】 近年来,不管是神经科学还是计算机科学,科家们一直都在寻求跨界融合,希望由此将各自的研究往前推进。2017年4月5日,北京,阿里巴巴绿地中心,新...

3235
来自专栏AI科技评论

「人工智能」六十多年了,而我们又走了多远了?

在 GANs 的余温逐渐冷却,基于深度学习设计的解决方案仍然在信息与计算机领域之外的问题上苦苦挣扎,机器学习理论研究相比于单个方法和任务更关注不同方法和任务之间...

682
来自专栏机器人网

深度学习新算法,像训练狗一样训练机器人?

美国陆军研究实验室(ARL)和德克萨斯大学(UT)奥斯汀分校的研究人员已经开发了新的机器人或计算机程序技术,以学习如何通过与人类指导员进行交互来执行任务。这项研...

3319

扫码关注云+社区