深度揭秘谷歌训练 AI 隐藏劳力,“机器教练”只不过是廉价临时工

【新智元导读】《连线》杂志的一篇长文描绘了为 Google 这家科技巨头“训练AI”的幕后工作者,他们的工作是评估提供给他们的视频、广告等内容,以创造可以让机器学习的大量数据,也就是说,训练 AI 去取代他们的工作。不过,目前科技公司还离不开他们的工作,甚至非常依赖这些廉价临时工。

全美各地,每天,都有谷歌的雇员们登录他们的计算机,并开始观看 YouTube 视频。他们在视频中查找暴力内容,在视频标题中查找包含敌意的语言,他们决定是否将视频片段分类为“攻击性”或“敏感内容”。他们是谷歌的所谓“广告质量评估员”(ads quality raters),通常是外部机构雇用的临时工,工作是提交机器无法独自进行的质量评判。而且现在,谷歌似乎迫切需要这些人的帮助。

YouTube 是谷歌旗下的大型视频子公司,每天会在其网站的数百万视频销售广告位。系统自动确定这些广告展示的位置,广告主往往不知道他们的广告会在哪个视频上显示。最近,这种不确定性成为谷歌面临的一大难题。有多个审查报告揭露,YouTube 允许广告显示在鼓吹仇恨和恐怖主义的视频旁边。沃尔玛,百事可乐, 威瑞森等公司已经抛弃YouTube 平台,以及更广泛的谷歌广告网络。

谷歌一直在试图控制事态,说媒体夸大了广告显示在攻击性视频旁边的问题。该公司说,这类视频触及的“不到广告主总曝光量的1/1000”。谷歌首席商务官 Philipp Schindler 表示,这个问题只影响了“非常非常小的一部分”视频。但据他们的广告评估员(ad raters)的说法,谷歌正在集结他们的力量,以阻止这个问题变得更严重。

由于谷歌的收入90%来自广告客户,因此它需要找到那些攻击性的视频内容,防止更多广告主放弃它的平台。但每天,有将近60万小时的新视频被用户上传到 YouTube,相当于需要一个小城市的人全天24小时观看才可能看完。这也是为什么这家科技巨头强调,开发人工智能内容过滤器的工作很困难,标记攻击性视频的软件需要处理的视频片段比以往任何时候都要多。Schindler 最近回答彭博社采访时说:“这个问题不能由人类来解决,也不应该由人类来解决。”

但问题是,谷歌仍然需要人类来训练 AI。因此,谷歌仍然依赖大量的人类工作者来识别和标记攻击性的视频材料,以构建可以让 AI 从中学习的数据集。但有八名现任或前任评估员告诉WIRED,谷歌一度十分依赖广告评估员的工作,与谷歌公司的沟通不足,以及缺乏工作稳定性,种种问题损害了他们的工作能力。

“我不是说这是目前谷歌的危机的全部原因,”一位前谷歌广告评估员说,“但我确实认为,这个项目的不稳定性是一个因素。我们评估员训练 AI,但我们非常清楚,人类的眼睛,以及人类的大脑,在评估内容时需要进行一些深思熟虑。

YouTube 广告危机:谁在训练 AI

技术公司长期以来都有雇用内容审查者,随着人们上传和分享的内容越来越多,这项工作对这些互联网巨头而言变得越来越重要。广告评估员告诉 WIRED,他们的角色不仅仅是监控视频。他们需要阅读视频评论以标记用户间的谩骂行为。他们需要检查谷歌广告网络提供服务的各种网站,以确保它们符合公司的质量标准。他们需要对这些网站进行分门别类,例如零售类网站或新闻网站,然后点击广告链接,看看链接是否有效。而且,正如他们的头衔所示,他们需要自己评价广告质量。

然而,3月份谷歌遭到广告客户的抵制之后,根据公司发送给评估者的一封邮件,谷歌要求广告评估员将其他工作放在一边,以进行“高优先级的评估项目”,这“在可预见的将来”都将全部是他们的工作量。这个新项目要求他们完全专注于 YouTube,根据广告主认为令人不快的内容条目,检查视频内容或整个频道。一位广告评估员说,“这是一个巨大的变化。”

评估者说这样巨大的工作量意味着量和速度比准确性更为优先。在某些情况下,他们被要求在两分钟内检查数小时的影片。在匿名在线论坛上,评估者们交换加快速度的技巧——例如,检查 rap 视频的歌词以快速发现脏话,或者以10秒为单位跳着观看视频,而不是从头观看整个视频。会有计时器跟踪他们在每个视频上花了多少时间,而且只有一个建议的截止时间,评估者说这增加了他们的压力。“我很担心假如我接连在太多视频上花费了过多时间会被解雇,”一位评估者告诉 WIRED。

广告评估员不只是将视频标记为不合适。他们被要求对视频标题和内容都进行细致的评估,并且分类,例如包含“不合适的语言”,如“脏话”,“仇恨言论”,或“其他”;或者包含“暴力”,子分类是“恐怖主义”,“战争和冲突”,“死亡和惨案”,或“其他”;或者包含“毒品”,以及包含“性/裸露”(子分类是“虐待”,“裸体”,或“其他”)。这个系统还为广告评估员提供“其他敏感内容”的选项——例如,有人在传播极端的政治观点。

评估人员说,有些材料并不总是能恰当地归到所提供的类别。在这些情况下,他们需要将材料标注为“无法评价”(unrateable)。一名现任评估者描述了他如何给一个内容是两个西班牙人在争吵的视频评估,“我把它归类为‘无法评价’,因为我不懂外语。”他说,“我也加上了一句说明,说这似乎是一个用外国语在互相辱骂的视频,但我无法确定它们是否使用了冒犯性语言。”

有多名评估员说,他们曾被要求观看令人震惊的内容。一名评估者说:“最近的视频内容非常千奇百怪...比如有人试图在卡车里和他们的狗一起自杀,他先令卡车起火,然后下了车,拿枪爆头死了。”在评估员们经常访问的在线论坛上,有匿名帖子写道,他们看过强暴妇女,儿童和动物的视频。有些帖子表示,在连续观看几个这样的视频后,他们需要停下来缓口气。广告评估员表示,他们不知道谷歌是怎样选择让他们观看的视频的——在开始评估之前,他们只能看到视频的标题和缩略图,看不到理由。他们要观看的其他典型内容包括电子游戏解说,政治言论,阴谋论等。

总而言之,鉴于给视频评估所需的细致工作,谷歌仍然需要人工协助来处理 YouTube 的广告危机。在谷歌发给评估员的描述该工作目的的文件里写着:“我们有很多的信息来源,但我们最重要的来源之一就是你。”但是,谷歌公司高管和重要人物一再强调,只有机器智能才能解决 YouTube 如此大规模的问题,但只有当谷歌(或其他)的机器足够智能,聪明到能独自从各种形式的表达中识别出真正的冒犯性言论,这才可能实现。在此之前,这样的工作仍然需要依赖人力。

“我们一直依靠技术和人工评估的结合来分析标记给我们的内容,因为理解视频的背景有时候是主观的。”谷歌发言人 Chi Hea CHO 说,“最近我们增加了更多人来加快评估的过程,这些评估有助于训练我们的算法,以让算法随着时间推移不断改进。

廉价劳动力:没有加薪,甚至随时可能被解雇

广告质量评估项目(ads quality rater program)开始于2004年。它是谷歌的搜索质量评估项目(search quality evaluation program)的延伸,这个项目最初服务于谷歌的核心广告业务:AdWords,生成与搜索结果和 AdSense 相符的广告,并通过谷歌在网站上投放。最初负责招聘广告评估员的机构是 ABE,支付的薪资是20美元/小时。一名前评估员说,那时他们可以全职工作,甚至加班。2006年,ABE 被 WorkForceLogic 收购,那之后他们的工作条件就不太好了。一家名为 ZeroChaos 的公司在2012年收购了 WorkForceLogic,因此现在与评估员签约的是 ZeroChaos。

广告评估员的工作经常吸引那些喜欢灵活的工作条件的人,包括刚刚走出校园的大学毕业生,退休工人,在家赋闲的父母,以及身体有残疾的人士。评估员可以随时随地工作,只要满足每周10小时的最低工时要求即可。他们只需要确保自己的笔记本或手机能够使用。

但这份工作的不稳定性可能对许多工人造成伤害。“我们大多数人都喜欢这份工作,”一位广告评估员告诉 WIRED,“但我们没有成为全职雇员的机会。”

接受 WIRED 采访的多数评估员都是通过 ZeroChaos 受聘的,但它只是向技术公司提供临时工的机构之一。ZeroChaos 给受聘人员签一年合同,但他们最多连续工作两年就不再能续签,至少直到最近仍然是这样。有些工人认为这个限制令技术公司无法得到经验丰富的评估员,而他们是最有资格做这项工作的。(4月初,在我们做这个报道时,ZeroChaos 通知受聘员工,这个两年的限制条件已经废除。)广告评估员也不会得到加薪——每小时15美元,每周最多可以工作29小时。休息时间是没有工资的。如果每周至少工作25小时,可以申请福利,但他们无法保证有足够的任务来达到这个工作时限。工人们说,他们可能毫无预兆地发现自己被解雇了,没有警告,也没有返回给他们任何理由——多名受访者都反应了这个问题,其中一名只工作了一周。该公司通过电子邮件通知员工他们已被解雇。

谷歌发言人 Cho 说:“谷歌努力与有良好工作条件记录的供应商合作,当问题引起我们注意时,我们会警告这些供应商,并与他们合作解决问题。我们会进一步调查这个问题。”ZeroChaos 拒绝置评。

Human-AI

根据 WIRED 接触到的多位广告评估员的说法,技术行业的许多大公司都在雇用临时工参加意在训练 AI 系统的重复任务。一位广告评估员描述了几年前给 Microsoft Bing 的搜索结果进行评估的工作,人类评估员需要每小时浏览多达80页的搜索结果。有评估员告诉 WIRED,LinkedIn 和 Facebook 也聘用人工进行类似的工作,LindedIn 是进行数据的注释,Facebook 是要在粉丝页面评估“赞助帖子”(sponsored posts)。(微软拒绝发表评论,LinkedIn 没有回应有这样的项目,Facebook 也没有回复评论请求。)

临时工总体的不稳定性以及雇员的高流失率令评估员们感到不安,他们认为谷歌正在失去拥有更长时间工作经验的评估员的专门知识,一位前评估员说,“他们花费时间和金钱训练新人,然后赶走他们。”

但是,流动性高的广告评估员可能是令 AI 能够更聪明的最佳选择。AI 研究人员和行业专家认为,经常流动的人类训练员可能更适合去训练 AI。AI 创业公司 Nara Logics CEO Jana Eggers 说:“AI需要许多不同的观点,尤其在判断冒犯性内容的方面。”她指出,即使是最高法院也无法描述“猥亵言论”,他引用了最高法院法官 Potter Stewart 对“淫秽”的定义:“只要我看到,我就会知道。”(I know it when I see it)。“让机器拥有更多的眼睛去看能够得到更好的结果。”

但是,AI 研究者普遍认为, 不良的人类情绪不一定会导致机器学习不好,可能会由于不同人的工作环境和经验产生一些微妙的影响。康奈尔大学 AI 教授 Bart Selman 说:“人们通常的观点是用大量多样化的输入是训练 AI 模型的一个途径。”“通常来说,这是很好的一般性指导方针,但在涉及到道德判断时,大多数群体存在明显的根深蒂固的偏见。”Selman 说,“例如,人们认为某些工作男性比女性做得更好,反之亦然。因此,假如你用一般人群的观点或者过去的招聘决策数据去训练一个招聘模型,你会发现一般人群中隐藏的偏见。而且,如果训练你的 AI 的是焦虑的临时工的看法,他们也会在这些系统中嵌入他们的偏见。”

“你不会希望通过观察普通人日常生活的做法去训练一个 AI 的道德伦理模块,”Selman 说,“你会希望输入来自那些对潜在的偏见和伦理问题有更多思考的人。”

山景城总部的谷歌员工享有风景如画的办公环境,免费的自助美食,休息室有游泳池和桌上足球。这与一名典型广告评估员的工作环境天壤之别。为这家世界上最具价值的科技公司工作,可以意味着豪华的福利和巨额的薪资,也可能意味着作为一名临时工,埋头于重复单调的任务,为的是训练这些公司的机器去做同样的工作。

原文:https://www.wired.com/2017/04/zerochaos-google-ads-quality-raters/

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-04-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

【每天一个数据分析师】几乎任何一种分析,都可以用矩阵式分析来引出思路

论坛君 “每天一个数据分析师”在第五期采访到的是一位萌妹子Yuki,她毕业于复旦大学,目前在上海从事互联网金融行业的数据分析,主要从事业务和用户方向的数据分析和...

5667
来自专栏AI科技大本营的专栏

Facebook 应用机器学习团队专访:人工智能在 Facebook 中的应用

当下,应用机器学习团队(Applied Machine Learning Group)对 Facebook 的影响体现在方方面面,涉及阅读、交流方法和理解方式等...

3627
来自专栏AI科技评论

看谷歌和OpenAI联合发布的五条AI定律 如何打脸霍金

最近,谷歌和OpenAI的博客都宣布了一条由谷歌、OpenAI、伯克利和斯坦福的学者共同进行的研究,其目的旨在为AI提供一个有效的行为约束,以使其不会在有意或无...

3095
来自专栏钱塘大数据

高质量数据集哪里来?机器学习公司的十大数据搜集策略

长期以来,在机器学习中不合理的数据利用效率一直是引起广泛讨论的话题。也有人认为,曾经阻碍人工智能领域取得各种重大突破的,并不是什么高深的算法,而是缺乏高质量的数...

49310
来自专栏新智元

【与AlphaGo的同与不同】阿里巴巴双11上任AI调度官达灵,数据中心资源利用率提升至90%以上

作者:胡祥杰 【新智元导读】双十一来临前,阿里发布了数据中心AI调度官“达灵”,达灵”通过应用强化学习、组合优化等技术,可以在复杂环境中自行学习判断,作出一系列...

4038
来自专栏ThoughtWorks

在ThoughtWorks,我们如何做招聘

引子 知乎上有很多关于ThoughtWorks面试的讨论,主要集中在这样两个方面: 该如何准备ThoughtWorks的面试?其面试流程是怎样的? Thoug...

2927
来自专栏机器之心

SIA重磅报告解读半导体行业前景:涵盖分布式、认知和生物计算等

选自SIA 作者:Sohrab Aftabjahani等 机器之心编译 参与:机器之心编辑部 SIA,美国半导体产业的代表组织。美国半导体产业是美国顶尖出口产业...

2855
来自专栏大数据文摘

除了A/B测试,你还需要搜集这些数据!

1221
来自专栏腾讯大讲堂的专栏

【WE重现】Daniel Leithinger:3D 触感屏幕,告别平板世界

来自麻省理工大学媒体实验室的Daniel Leithinger,在2014腾讯WE大会上展示了一款名为inFORM的3D交互界面,它颠覆了我们熟知的触摸屏,让用...

2199
来自专栏腾讯研究院的专栏

深度思考:社交媒体的大数据是否可靠?

  如今,科学家们正越来越多的把目光转向社交媒体,以研究线上及线下的人类行为,例如预测夏季股票市场的大波动。一些数据处理专家指出,使用该种方法处理数据时,研究...

2238

扫码关注云+社区

领取腾讯云代金券