人工智能学会了如何愚弄语言到文本 这对语音助理来说是个坏消息

加州大学伯克利分校的一对计算机科学家开发了一种基于人工智能的攻击,目标是语音到文本系统。使用他们的方法,无论音频文件听起来如何,文本输出将是攻击者想要的任何东西。

这个很酷,但它也是“人工智能的可怕用途”类别的另一个入口。

这个团队,Nicholas Carlini和大卫瓦格纳教授,可以通过将Mozilla的广受欢迎的DeepSpeech开源语音-文本系统,从根本上改变它本身。在上周发表的一篇白皮书中,研究人员说:

给出任何音频波形,我们可以产生另一个99.9%以上相似, 但转录为我们选择的任何短语(以每秒高达50个字符的速度)…我们的攻击100%成功,不管所需的转录,或起始源词组。我们可以用任意波形来代替语音(比如音乐),我们可以将语音嵌入到不应该被识别为语音的音频中;通过选择沉默作为目标,我们可以将音频隐藏在语音到文本系统中。

这意味着他们可以,假设地,接受任何音频文件,并说服一个语音到文本转换器——就像谷歌助理,Siri,或Alexa使用来弄明白你在说什么——这是另外一回事。在这个充满智慧的扬声器和语音助手的世界里,这是相当沉重的。

在通过电子邮件向TNW发表讲话时,Carlini告诉我们:

在与乔治敦大学的其他研究人员之前的工作中,我们构建了我们所谓的“隐藏语音指令”,用来攻击手机上的语音识别系统。这些攻击的目的是让你和我听起来像随机的噪音,但要识别出智能手机的特定短语(例如,“好的谷歌,浏览到邪恶的网站”)。

当然,当听到扭曲的声音(这听起来像上面的视频中的撒旦的声音)时,任何人类都会意识到有些事情是不对的。这就是为什么研究人员把事情做得更深入。Carlini继续说:

因此,在本文中,我试图将攻击扩展到更隐秘的设置。我想让任何一个随机的音频短语转录成完全不同的东西。通过这种方式,我可以拍摄任何我想要的视频,添加少量的对抗式的噪音,重新上传,并导致一个语音到文本的系统来转录一些完全不同的东西。观察它的人不会听到任何异常。

Carlini还指出,攻击是有限的,它只适用于DeepSpeech,这显然不是Siri,Alexa,或谷歌助理使用的转录。

但这项工作证明了这是可能的。事实上,Carlini告诉我们,他会“自信地说,只要有更多的工作,有人就能让我们的音频对抗的例子也能在空中工作。”

这些研究人员在崭新的边缘进行了一场勇敢的战斗。他们已经开始拉扯一串可能导致AI成为虚拟助手的严重漏洞。

想象一下,网络攻击会使语音控制在规模上无法操作,或者将语音系统(比如手机、电视、电脑和汽车)与处理器密集的命令联系起来,这些指令可以嵌入到像贾斯汀比伯的歌曲一样无害的东西中。

我们如何教Alexa如何捂住耳朵?

来源:thenextweb

作者:TRISTANGREENE

编译:FintechProbe

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180201G01R6Y00?refer=cp_1026

同媒体快讯

相关快讯

扫码关注云+社区