如果以后智能家居产品用Angelababy的声音叫你起床,电子词典用川普的声音教你学英语,你可千万不要太惊异。目前,人工智能技术已经将语音变得可以像像素一样可复制和扩展了。这个语音合成领域的大突破还得从Lyrebird说起。
昨天,一家名为Lyrebird的加拿大AI初创公司推出了它第一款产品,他们宣布,这个产品拥有的算法可以通过倾听一分钟的音频样本记住发音人的声色,并模仿他的声音合成各种语句。
我们先来听听Lyrebird的产品合成的特朗普、奥巴马和希拉里的声音:
讲真,Lyrebird的产品功能也不算是行业首创。早先Google旗下的DeepMind曾经公布了一个用AI合成人声的研究成果:WaveNet,它与人类的发音非常相似,不仔细听可能都会骗过你的耳朵。无独有偶,Adobe也发布过一款叫Project VoCo的原型软件,用Project VoCo来编辑语音,就如同用Photoshop来编辑图像。
在人们纠结于Project VoCo需要倾听20分钟的音频样本才可以模仿时,Lyrebird出现了。它将音频样品输入时间缩短至60秒——虽然目前它输出的声音和真人声还有区别,但无疑它的技术也在不断进步嘛。
仅仅合成特定人声不不够的,Lyrebird的算法还可以合成“有感情”的声音——可以模仿你的愤怒、同情甚至压力山大下的语调。这款产品可以被大范围应用在很多地方,比如用名人的声音阅读有声读物,比如将它连接到其他智能设备,比如为残疾人合成语音,当然,也可以被应用在制作动画电影和视频游戏上。
不过,也有不少人担心,这些语音合成软件的应用可能会带来很多麻烦。
之前伯明翰阿拉巴马大学的一项调查表明,语音合成的声音可以欺骗人和核实身份的机器。如果给予AI的的信息足够多,它甚至可以生成任何人以假乱真的图片或者视频。比如UAB报道的一则新闻,使用者可以使用3D映射将自己的表情实时转移到乔治·布什或普京的脸上(可以有链接)。
如果这项技术结合了Lyrebird的语音合成器,你可以轻松的在Facebook上发布一条“唐纳德·川普声称将使用生化武器进攻朝鲜”的新闻。