第一批被AI累死的人

一双眼睛的局部细节图出现在电脑屏幕上,小慧对着放大的眼睛,一步步地做好标记点。一眼望过去,一排排的电脑屏幕上,都是类似的画面。略显昏暗的办公环境加上电脑屏幕上被放大的各种物体细节,颇为惊悚。

在某人工智能研究院看到这一幕,不觉惊叹即使是头部的AI创业公司,最关键的一环依然是从数据标注员开始的。

而这是一群被称作第一批被 AI 累死的人。

1

AI 的老师

画框的这些人

伴随着 AI 兴起的最关键的技术莫过于深度学习,作为深度学习的基础,神经网络是一种以输入为导向的算法,其结果的准确性取决于接近“无穷”量级的数据。深度学习最关键的就是需要大量的数据训练,所以,需要先对大量的数据进行标注,作为机器学习的先导经验。

因此,催生了大量数据标注员的产生。

简单的说,数据标注员类似于 AI 的老师,举个形象的例子,我们要教机器认识一个苹果,你直接给它一张苹果的图片,它不会理解。我们得在有苹果的图片上标注 " 苹果 " 两个字,机器通过学习了大量的图片中的特征,这时候再给它任意一张苹果的图片,它就能认出来了。

据了解,目前标注员的工作内容常见的有拉框标点、打标签、分割、批注等。从他们的基本工作内容就可以看出来,数据标注是个非常枯燥而又考验人耐力的工作,并且相比较 AI 所代表的高科技,标注看起来毫无技术含量。

2

一条产业链的开始

巧妇难为无米之炊,AI 算法的训练离不开这些大量的数据标注,同时催生出数据标注外包业务这个热门产业。在某调查中显示,样本收纳了6家大数据公司,其中,有5家都在2017年到2018年这个时间周期内获得千万的融资:

2017年7月,BasicFinder 完成1000万人民币 Pre-A 轮融资; 2017年11月,龙猫数据获得 A 轮3370万人民币融资; 2018年1月,星尘数据获得1000万人民币 Pre-A 轮融资; 2018年3月,爱数智慧获得 A 轮融资; 2018年5月,周同科技完成2000万人民币 A 轮融资。

另外,像京东、百度、腾讯、阿里其实都有自己的标注平台和工具。

而在国外方面,亚马逊有推出众包数据平台 Amazon Mechanical Turk, 初创公司方面则有 CrowdFlower、Mighty AI 等。这些已经算是这个领域的佼佼者了,在他们的下面,还有成百上千的小的数据标注公司。

据悉,数据标注行业施行这样一套分工流程:上游的科技巨头把任务交给中游的数据标注公司,再由中游众包给下游的小公司、小作坊,有的小作坊还会进一步众包给“散兵游勇”,比如学生或家庭主妇。

这条产业链上,分包现象越严重,最终落到最底层的数据服务公司的价格就越低,一层层的“数据黄牛”压缩了利润空间,所以一些任务经过数手转包,酬劳已低得惊人。

3

有多少智能

就有多少人工

即使现在有一些数据服务平台开发了AI工具来辅助人工标注,但依然需要数据标注员去检查和修正错误。在专业数据标注公司,机器占30%,而人工标注占比达到70%。

梳理数据标注员的工作逻辑,就像一个悖论,AI 能否进化的更为智能某种程度上取决于这些标注工作的人,而这个工作却是最不智能、最没有技术含量的。

一位管理标注员的负责人用特斯拉(Tesla)的自动驾驶事故给员工“打鸡血”,他提到2016年,一辆自动驾驶模式下的特斯拉发生车祸事故。事后特斯拉公司发表声明称:白色卡车在蓝天背景下识别不出来,特斯拉因此没有启动刹车。

“我一直跟他们说:你们打磨的每一个数据都会为人工智能做出巨大贡献,将来的无人驾驶车能够识别出蓝天下的白色卡车,就是因为你当年把它标出来了。”

最需要 AI 去做的事情,AI 反而无能无力,而我们为了能让 AI 取代劳动密集型的工作,得先为 AI 服务,这让数据标注工作看上去有点赛博朋克、反乌托邦的“魔幻”感觉。

4

人工训练 AI

依然存在很多问题

此前,清华大学人工智能学院院长张钹院士就提到纯数据驱动的系统也存在很大问题——鲁棒性很差,易受到很大的干扰。即便训练出的系统模型准确率高达99%,但在实际应用中,仍然会犯很多“弱智”的错误

这就陷入了死循环,人不可能像AI一样,在工作中严格按照数据程序毫无瑕疵地完成工作,纰漏或者技术本身的问题,会导致人工智能的不准确性。最终,就在这个无限循环中不停地优化。

而且考虑到数据的隐私和公司的商业利益,同类型的数据无法相互打通,就像一位资深数据标注从业者所说, “以自动驾驶领域的数据标注为例,我用 A 公司的数据模型放到 B 公司的设备上跑不通,甚至摄像头换了一个角度、位置或分辨率,都跑不通。”

“有多少智能,就有多少人工”这似乎是AI进化必须经历的过程。

5

结语

当然,最完美的情况应该是:AI能够自己消化大量的数据自学成才。Facebook 人工智能研究部门负责人Yann LeCun曾经说过,AI 的核心在于预测,AI 的下一个变革是无监督学习、常识学习

所以理想环境下,我们现在探讨的悖论过几年或者十几年就能完美解决了,这批为 AI 服务最终会被 AI 取代的人,也“功成身退”了。无论未来如何变化,人工智能如何发展,只要我们一直在学习成为更好的自己,就将无所畏惧!

原文发布于微信公众号 - GitChat精品课(CSDN_Tech)

原文发表时间:2018-09-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

万字长文回溯深度学习革命,盘点 16 大历史时刻

编译来源:http://fortune.com/ai-artificial-intelligence-deep-machine-learning/

13040
来自专栏机器之心

CCL 2017最佳论文公布,看全国计算语言学前沿研究

机器之心报道 作者:邱陆陆 10 月 14 日、15 日,由中国中文信息学会(CIPS)举办的第十六届全国计算语言学会议(CCL 2017)暨第五届自然标注大...

37380
来自专栏PPV课数据科学社区

《财富》万字长文回溯深度学习革命,盘点 16 大历史时刻

【导读】《财富》封面文章报道深度学习推动的人工智能如何在整个计算生态系统引发革命。文章从深度学习发展的历史关键点入手,介绍重大的标志性技术突破,讲述了 Hin...

37280
来自专栏机器之心

专栏 | 田渊栋:第一届FLAIR感想

36090
来自专栏机器之心

特写|人工智能背后的人

机器之心原创 作者:虞喵喵 在大部分人看来,人工智能是个有些「科幻」的词汇,代表小说电影中和人类长相相似、或温柔或冷酷的机器人。 稍微熟悉一点,这份印象又变成冷...

41480
来自专栏镁客网

人工智能已到瓶颈!院士“联名”反深度学习,并指出AI未来发展方向

针对当下深度学习的技术瓶颈,包括清华大学张钹在内的多位院士、教授给出了自己的研究思路。

17170
来自专栏新智元

深度 |《财富》万字长文回溯深度学习革命,盘点 16 大历史时刻

【新智元导读】《财富》今日刊文,深度报道阐述深度学习推动的人工智能如何在整个计算生态系统引发革命。文章从深度学习发展的历史关键点入手,介绍重大的标志性技术突破,...

34650
来自专栏新智元

更正 |《财富》万字长文回溯深度学习革命,盘点 16 大历史时刻

【新智元导读】《财富》封面文章报道深度学习推动的人工智能如何在整个计算生态系统引发革命。文章从深度学习发展的历史关键点入手,介绍重大的标志性技术突破,讲述了 H...

34770
来自专栏AI科技评论

金句频出,16位大神在ICML上展开了一场机器学习的Great Debates

AI 科技评论按:机器学习圈子这几天发生了一件有趣的事,一群知名学者在 ICML 2018 上抱着吵架(辩论)的心思坐到一起,结果却没能吵起来。

15940
来自专栏机器之心

GMIS 2017 | 伯克利教授Stuart Russell:人工智能的过去、现在和未来

机器之心原创 机器之心编辑部 全球机器智能峰会(GMIS 2017),是全球人工智能产业信息服务平台机器之心举办的首届大会,邀请了来自美国、欧洲、加拿大及国内的...

28880

扫码关注云+社区

领取腾讯云代金券