首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

耳听也不一定为实,AI语音已能骗得百万巨款

日前,AI换脸应用ZAO在国内市场引发了大量的关注,而人工智能的普及也让日常生活发生了不小的改变。但AI作为工具来说,自然是无所谓善恶的,就像ZAO以AI为武器试图获取用户隐私相关信息一样,在国外市场AI也成为了犯罪分子手中的工具。

日前根据《华尔街日报》的报道,有黑客团伙成功模仿了英国某能源公司在德国母公司CEO的声音,并其手中骗取了22万欧元。而这一骗局说起来也十分简单,这家英国能源公司的CEO以为其正在与他老板,也就是母公司的CEO通话,后者要求他将资金汇给匈牙利供应商。

这种套路对于国人来说是不是异常熟悉,这正是此前出现QQ冒充老板诈骗的变种或者升级版了。而二者的区别就在于,骗子是盗取QQ号利用文字诈骗,而海外黑客则技高一筹,直接模仿了老板的声音。毫无疑问,这伙黑客并不是什么能够模仿他人声音的奇人异士,而只是使用AI来复刻了德国老板的德味英语和说话音调,让来自英国的下属认可其就是他老板。那么这一切究竟是怎么做到的呢?我们不妨从头说起。

首先,我们此前曾经提到过,目前在电话营销领域,机器人的比重越来越大,而且声音也与真人无异。不过这种模式基于关键词播放录音,而录音本身则是由真人完成,是千篇一律的话术。而量身定制的诈骗行为,肯定是不会用这样无法随机应变的方式。

众所周知,人工智能背后依靠的是机器学习和深度学习作为技术支持,大数据作为训练对象。比如说,谷歌Duplex作为当下最知名的智能语音代表,其之所以能实现“自然对话”,背后靠的是自然语义理解、自然行为建模,以及自然语气三大核心,谷歌在循环神经网络的基础上,使用低置信度模型来解决响应问题、基于WaveNet和Tacotron的合成TTS(文本到语音)引擎,来控制语音语调。

其中,TTS引擎就是今天的主角,也正是海外黑客团伙能够合成他人自然语音的关键。比如说,谷歌旗下的DeepMind团队在2016年推出的WaveNet,百度方面在2018年拿出的Deep Voice系统,就是典型的TTS引擎。但无论是WaveNet还是Deep Voice,其实都是从海量人声样本中提取数据及特征,并建立一个音频模型,而语音合成神经网络则根据这些模型进行调整,以设计出不同特征的声音。在实践过程中,Deep Voice能够将各种文本特征(文字、音素、重音)转换为声学特征,然后再将这些声学特征作为声音波形合成模型输入。

当然,WaveNet与Deep Voice还要依靠大数据来进行训练,并需要一段时间的学习,才能达到模仿真人声音的效果。而科技进步的脚步是不会停下的,谷歌在去年实现了能够实时语音克隆的SV2TTS,这是一个三阶深度学习框架,只需要5秒钟的低分辨率原音信息,这一框架就能提取其中的声纹和声线来生成梅尔(mel)谱图,最后基于自回归波的语音生成网络,将梅尔谱图数据转换为与原音相似度极高的合成语音波型文件。

而作为国际知名的科技巨头和创新先锋,谷歌并没有将SV2TT敝帚自珍,而是将其上传到Github等开源社区中。因此这个诈骗了22万欧元的黑客团伙,在通过某渠道获得了德国老板的联系方式,通过短暂对话拿到后者语音素材之后,很容易就以此为基础生成了用于诈骗的实时语音。

那么有没有办法针对这种新型高科技诈骗的办法呢?其实从技术层面来看很难,所谓以AI制AI的方法也并没有太多普适性,但大家不妨多一个心眼,如果未来接到了你老板打来要求转账给其他人的电话,试试用其他方式联络老板来做个“双因素验证”,毕竟骗子也不太可能做到面面俱到。

【本文图片来自网络】

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190905A0NTZW00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券