AI如何能够用我们的声音来对付我们

文章来源：腾讯云开发者社区The Conversation

语音控制小工具 - 比如亚马逊的Alexa，谷歌的Home或苹果的Homepod - 正变得越来越流行，但人们应该暂停思考机器学习的进展，这可能会导致应用程序理解不同的言语情绪。

谷歌首席执行官Sundar Pichai最近表示，该公司20％的搜索是通过手机通过语音发起的。而且，在2017年底，对美国市场的分析显示，总共售出了4400万台亚马逊Alexa和Google Home设备。

这项技术具有越来越高的识别词汇的能力，但作为声学专家，我很清楚口头交流要复杂得多。事情如何说与事情本身一样重要。当有人说“我没事”时，他们声音的语气可能会告诉你他们的情绪与他们声称的情绪相反。

语音控制小工具，也称为智能扬声器或虚拟助理，它们在这方面的表现可能令人沮丧，因为他们只关注单词，而大多忽略了语言是如何表达的。科技巨头希望亚马逊Echo等设备的下一个前沿将会探测到一个人如何从自己的声音中感受到让互动更自然。

人的声音可以提供关于谁是谁的信息，他们来自哪里以及他们的感受。当一个陌生人说话时，人们立即会分析他们的口音和语调，并对他们的阶级，背景和教育做出假设。

如果语音控制装置采用这种信息，则可以改进语音接口。但值得警惕的是意想不到的后果。这项技术依赖于机器学习 - 人工智能的一个分支，汇集了一台已经获得大量数据的机器学习的算法和统计数据 - 所以它的行为并不是完全可预测的。

未来是聪明还是愚蠢？

研究表明，用于训练机器学习应用程序的语音示例可能会导致偏见。这种技术问题在Google Translate等流行工具中已经很明显。

例如，当用于将土耳其语短语“o bir doktor”和“o birhemşire”翻译成英语时，Google的服务返回结果“他是医生”和“她是护士”。但是“o”在土耳其语中是一个不分性别的第三人称代词。医生为男性，护士为女性的推定反映了文化偏见和性别在医学界的分布偏差。

谷歌翻译发现了算法在训练数据中出现的人类文化偏见，最终结果是性别歧视翻译系统。

Google的机器学习翻译显示出文化偏见。

解决这些问题并不是一件容易的事，因为机器学习会反应人类的刻板印象。当人类听到声音时，他们通过使用经验法则来简化如何应对某人的工作。

研究表明，当人们听到一个女人结束很多她的句子时，会出现一个上升的变化，即上升趋势，典型的假设是他们很年轻。如果一个男人用一个深沉的声音说话，那么他就有一个假设，他是大而坚强的。这种关于言语的简化假设可能导致偏见的判断。

一项研究发现，带有伯明翰口音的犯罪嫌疑人比那些口音更加中性的犯罪嫌疑人更有可能被定罪。研究还表明，非本地口音被认为更不真实。

研究一个人是否因言语而生气，开心或伤心，对于任何使用语音控制设备的人来说都是非常有用的。但人们发出的声音线索因人而异，跨语言和文化。人们并不总是正确地认识情绪，因为任何曾经处于关系中的人都会作证，那么为什么预计机器可以做得更好呢？

研究人们的听觉，一些人声称他们可以直观地判断某人是男同性恋，女同性恋还是双性恋 - 使用的通俗名词 - 提供了一个模糊甚至虚假信号的好例子。例如，听众会假设男同性恋者应该听起来如何，比如声调较高，但这些往往是错误的。

声音信号的个性化，自然的模糊性很可能会导致错误，除非技术公司从他们的意外中学习。鉴于技术严重依赖于所输入供学习的数据，一次试图解释人类声音的应用程序可以学习到人类固有的成熟的偏见。

开发语音控制设备和服务的技术公司可能已经与声学专家交谈。但是在应用机器学习来解码人类语音之前，他们需要仔细聆听警告以更好地理解要避免的陷阱。

发表于: 2018-05-292018-05-29 09:09:51
原文链接：https://thenextweb.com/syndication/2018/05/28/how-ai-could-be-using-our-voices-against-us
如有侵权，请联系 cloudcommunity@tencent.com 删除。

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货