前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【AI的正面与侧面】披着光鲜的外衣的“数据民工”

【AI的正面与侧面】披着光鲜的外衣的“数据民工”

作者头像
钱塘数据
发布2018-03-06 11:28:47
1.1K0
发布2018-03-06 11:28:47
举报
文章被收录于专栏:钱塘大数据钱塘大数据
像是一场明星演唱会,舞台上灯光华美,主角激情澎湃,粉丝呐喊欢呼,场面一片火爆,而幕后忙忙碌碌的那些人,who cares,人工智能行业大抵如此。繁荣光鲜的背后,是无数人的默默付出。

“目前人工智能背后还是需要很多的人工工作。”一位创业者曾经这么说,如果作为门外汉,首次听说这样的观点可能会十分费解。

人工智能,无论是从科幻电影还是现实生活中给我们的印象,都是属于高大上的范畴,抑或是人类顶尖人才参与的未来事业,先进的技术会给我们生活带来无尽的便捷和想象力,不应该是大幅解放劳动力的么?怎么还需要投入大量的人力?

所以本篇整理了人工智能不那么智能的一面,这里有一个很少被提及也容易被遗忘的人群,那就是人工智能浪潮下辛苦劳作的“人工”。

人工智能需要数据,高质量的标注数据决定了一家人工智能公司竞争力。通常来说,数据标注得越准确、数量越多,算法模型的效果就越好,自然产品的体验也会更近一步,然而这么多结构化数据哪里来?于是有种产业叫数据工厂。

眼下这些数据工厂业务大多是标注数据,即根据项目方要求,人工为图片、视频和语音内容打标签、做标记。标注好的数据会被人工智能公司用来训练算法模型,然后应用到图像识别、语音识别、动作识别、自动驾驶等不同领域。

小编曾采访过一家专业的数据加工平台,旗下有12家下辖数据工厂及2000余名数据操作员来支持数据的采集、清洗、标记等产品化服务。与专业的数据标注公司业务类似的还有数据众包平台,以百度众包平台为例,号称是有10000+名专职外场数据采集员,5000+在线数据标注人员。

两者的区别在于众包平台上多为互联网网民兼职操作,由于没有受过专业化培训,在质量和数量都难以满足专业化的数据加工需求。

随着人工智能产业热度提升,数据加工厂的业务需求也越来越丰富,标注画面中不同的人脸,标注一段语音中的关键字段等等都是比较常见的数据标注工作;此外还有勾画图片中人体的关节点,将复杂的人体姿态标注成点和线的形式,可以用来训练识别人体体态的模型。

为路况图片中的车辆、摩托车、自行车和行人打上边框,并标注行进方向和是否有遮挡,这类图片多用来训练智能安防系统的识别能力;描绘建筑物的边缘,将静止画面中的大楼标注成不同的色块,这类数据多用在自动驾驶中车辆对环境的认知。

还有负责视频标注的工作,需要从每段视频中抽出 10 帧,标注相近两帧中物体的方向和坐标的变化,这些数据也许会被用来训练机器对物体连贯性的感知,也许用来训练机器预判物体的位置变化。

其中,精细化标注更不是什么容易事,华院数据曾举办过一次大数据应用比赛,在通过卖场货架图片自动计算产品的货架占有率这项测试中,她们拍摄了 1600 多张真实的货架图片作为原始数据,所谓精细化标注,就是货架上每一包紧挨着的零食、泡面,都要延边缘仔细划分。这一千多张图片的标注耗费了 12 个人大半个月时间,负责标注工作的人员几近崩溃。

可以说,现阶段的数据标注是个劳动密集型产业,和南方的普通加工厂基本没什么不同,只不过加工的产品是数据。

包括世界顶尖计算机视觉专家李飞飞参与建立的ImageNet ,是来自 167 个国家的 48940 名工作者,花费了 2 年时间,清理、分类、标记了近十亿张通过互联网搜集到的图片,才得到这个拥有 1,500 万张标注图片的数据集,其所耗费的时间与人力可想而知。

除了数据标注工作之外,前不久,智能音箱背后的声优也浮出水面,2014年以前行业都是采用参数合成的技术,提取出声音的特征模拟生成,这需要声优的声音更加端庄、严肃。彼时的配音人员大多是播音员、各大院校播音主持专业学生、主持人等,录音库只需要4、5千句就行。但是从2014年以后,为了让合成的声音更自然,业内都采用了拼接算法,提取出原声中的片段进行合成,这就要求更大的数据量,更多的样本。

以天猫精灵智能音箱为例,幕后声优的语音录制时间长达两个月,产品发布前已经录制20多万字,并且还在进行中,整体是要做到2万句,30万字的目标。

为智能产品配音和影视剧完全不一样,需要绝对的稳定性,语速要保持一致,而且情绪也不能有波动,因此效率并不高,声优每天需要录三到四个小时,一个小时大概只有100句话左右,能不能通过还得看录音师的判断。

据天猫精灵配音钰莹介绍,300-400句/天是一个配音演员比较正常的工作量,但是一开始的时候工作强度比较大,她一天录了500-600句,一连录了8天之后她的嗓子就发炎了,只能在家休息。

在大部分人看来,人工智能是个高级又轻松的概念,未来的一切都将因为AI技术的普及而变得更简单、更美好、更智能。

稍微熟悉一点,对人工智能的印象会变成工程师、科学家们口中的专有名词,GPU阵列、神经网络、深度学习、自然语言处理、迁移学习、计算机视觉等等一大串相关技术理论。

而在产业链的最底层是更为现实的一面,一批批身份各异,从未被提起的人们成为了新时代的数据民工。人工智能,仍需要大量的人工劳动给养,其实并不高大上。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-08-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 钱塘大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档