近段时间,包括谷歌、苹果、亚马逊、Facebook等在内的科技巨头纷纷被曝出人工收集用户语音数据。
而最近,微软承认员工和供应商会收听Skype和Cortana的语音数据和录音,来改善微软产品和服务的语音识别、翻译、意图理解等功能。(详见:《继谷歌苹果亚马逊之后,微软也被曝人工收集用户语音数据,微软公开承认了!》)
那么,这些科技巨头雇佣的人工到底做了什么呢?根据一份泄密文件,这些人做的是一些辛苦耗时的重复性工作。
“我为微软所做的大部分工作都集中在注释和转录Cortana命令,”一位微软承包商表示。
关于对这类数据进行分类的使用说明书有几百页,承包商要从令人眼花缭乱的选项中对数据进行分类,以及他们需要遵循的标点符号样式指南。
承包商表示,他们每小时要处理大约200条数据,而且他们在Cortana录音中听到过很私人的敏感信息。文件显示,对于某些工作,承包商需要每小时完成至少200项任务。
任务繁重,报酬很低
这项工作的报酬并不高。每小时只有12-15美元不等。其中要求特别关注触发命令“Hey,Cortana”,注意区分记录不同的语言和口音的发音,包括德语、中文、日语和澳大利亚语,加拿大语和美式英语等。
另外,微软要求将很多发音类似的单词转录为“Cortana”,比如用户的发音是“Cortona”或“Cortina”,也要能够激活Cortana。微软认为,用户的本意就是如此。此外,有些任务需要明确地将与联系人或其他个人信息相关的专有名词大写。”
微软发言人在一封电子邮件声明中表示,“我们一直在寻求提高透明度,帮助客户做出更明智的选择。我们披露的信息表明,我们使用Cortana和Skype Translator的客户内容是为了改进这些产品,我们邀请了第三方专家协助这一过程,并采取措施抹去这些信息,以保护人们的隐私。“
在媒体曝出微软对Skype翻译功能和Cortana中的用户语音进行审核后,微软更新了其产品隐私政策页面,明确说明了可能会有人收听所收集的音频信息。
其实这些人的主要工作是对用户的语音数据其进行分类。微软要求承包商将每份录音按照“领域”或“主题”来划分。这些包括“日历”、“报警”、“捕获”。其他领域包括游戏,电子邮件、通信、反馈、媒体控制和“订购食品”。还有一个“通用”域,可以放入多个域的通用命令,并向其中添加文档。
每个域都有几个不同的“意图”。比如说“警报”域,包括设置警报、关闭警报、查找警报,更改警报、设置/查找计时器等。
微软的承包商会分析这些Cortana命令,然后确定适当的域/意图。还有一些音频中涉及“双重意图”,即用户要求Cortana一次完成两项任务,对于这些信息,承包商也必须注意。
谷歌、苹果都这么干过,被曝光后已暂停
此前不久,苹果和谷歌的语音助手Siri和Google Assistant都被曝出以人工收集并审核用户语音数据的事件。两家公司在事件曝光后均承认了这一点,并很快宣布暂停人工审核。
今年7月中旬,谷歌宣布Google Assistant录音审核政策在欧盟国家范围内暂停至少三个月,德国的一家隐私监管机构于8月1日启动了对谷歌的调查。
谷歌的一位发言人表示,“在机密音频数据泄露事件曝光后,我们立即暂停了语音助手的人工审核,开始调查。我们目前与德国的隐私保护机构保持着接触,正在对语音的审核方式进行评估,帮助用户理解我们对数据的使用方式。”
谷歌一位产品经理David Monsees表示,谷歌人工审核的语音录音只占全部录音的0.2%。
8月2日,苹果宣布停止由承包商人工审核用户的语音录音,并表示将更新软件,用户可以选择拒绝人工审核选项。
根据苹果的Siri和听写服务条款,用户录制和听写的内容可能会被发送至苹果,包括名字、合约和与用户之间的关系等信息,还包括用户家中支持家庭套件服务的设备、手机上还安装了哪些app等,都在可能被发送的内容之列。苹果对此未予置评。
目前,用户无法通过Siri获取或删除自己的录音; 我们可以选择停止使用Siri或删除Apple帐户。然而,苹果的条款表明,如果Siri和dictation都被禁用,苹果将删除用户数据和最近的录音。任何与原始用户无关的东西——包括音频文件、transcripts、用户在提出请求时的位置和性能统计数据——都可用于苹果改进Siri和dictation。
要在Apple设备上禁用iOS 11+中的Siri,需要这样做:
1.设置> Siri & Search
2.关闭“Listen for 'Hey Siri'”和“Press Side Button for Siri”(按侧键唤醒Siri)
3.确认“Turn Off Siri”(关闭Siri)
然后,用户还可以禁止从dictation中录制:
1.单击设置>General (常规)>Keyboard(键盘)
2.关闭“Enable Dictation”(启用听写)并确认
科技进步和用户隐私真的是矛盾吗?
当把Siri、Alexa、Cortana等语音助理放在显微镜下时,语音助理隐私恐慌故事就出现了。它们代表了一种尚未被充分理解的新的AI技术。例如,公众仍然普遍认为,无论是否说出了唤醒词,这些语音助理使用的麦克风总是在听。这种认知是错误的。
现如今,人们对于科技巨头普遍焦虑和不信任,像谷歌、苹果、Facebook、微软、亚马逊这样的巨头都要用我们的对话来训练、改进自家的技术,那我们还能相信科技公司会负责任地管理我们的数据吗?
参考链接:
https://www.vice.com/en_us/article/qvgpkv/microsoft-updates-privacy-policy-admits-humans-listen-to-cortana-skype
https://www.dailyherald.com/business/20190817/how-to-manage-voice-recordings-on-your-smart-devices