谷歌采用全新方法解决语音分离任务,极大降低识别错误率

编译:chux

出品:ATYUN订阅号

将一个人的声音与嘈杂的人群分开是大多数人在潜意识里做的事情,它被称为鸡尾酒派对效应。像谷歌和亚马逊的Echo这样的智能扬声器通常会有更艰难的时间,但是在未来AI过滤声音可能会和人类一样好。

谷歌和瑞士Idiap研究所的研究人员发表的一篇新论文“VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking”中描述了一种新颖的解决方案。他们训练了两个独立的神经网络,一个说话人识别网络和一个频谱图屏蔽网络,它们共同显著降低了多扬声器信号上的语音识别字错误率(WER)。

今年早些时候,他们的工作建立在麻省理工学院计算机科学和人工智能实验室的一篇论文之上,该实验室描述了一个系统PixelPlayer,它学会了将个别乐器的声音与YouTube视频隔离开来。它让人想起2015年萨里大学的研究人员创建的AI系统,该系统在输入歌曲时输出人声谱图。

研究人员写道:“我们致力于将一部分感兴趣的发言者的声音与所有其他说话者和噪音的共同点隔离开来。例如,这样的子集可以由向个人移动设备发出口头查询的单个目标发言者形成,或者由与共享家庭设备通话的房屋成员形成。”

研究人员的两部分系统,名为VoiceFilter,包括一个长期短期记忆(LSTM)模型和一个卷积神经网络(带有一个LSTM层)。第一个采用预处理语音采样和输出扬声器嵌入(即矢量形式的声音表示)作为输入,而后者预测来自嵌入的软掩模或滤波器以及根据噪声音频计算的幅度谱图。掩模用于生成增强幅度谱图,当与噪声音频的相位(声波)组合并变换时,产生增强的波形。

然后教导AI系统,以最大限度地减少屏蔽幅度频谱图与从干净音频计算的目标幅度频谱图之间的差异。

该团队为训练样本提供了两个数据集:(1)大约3400万个匿名语音查询日志,来自138,000名发言者,(2)开源语音库LibriSpeech,VoxCeleb和VoxCeleb2的汇编。VoiceFilter网络用来自2333名CSTR VCTK数据集的贡献者的语音样本进行训练,由爱丁堡大学和LibriSpeech维护的语音数据集,并使用来自73位发言者的话语进行评估(训练数据由三个数据输入组成:干净的音频作为地面实况,包含多个扬声器的嘈杂音频和来自目标扬声器的参考音频)。

在测试中,VoiceFilter在双扬声器方案中将字错误率从55.9%降低到23.4%。

研究人员写道:“我们已经证明了使用经过有区别训练的扬声器编码器调节语音分离任务的有效性。这样的系统更适用于真实场景,因为它不需要有关扬声器数量的先验知识。我们的系统完全依赖于音频信号,并且可以通过使用高度代表性的嵌入式矢量扬声器轻松推广到未知扬声器。”

论文:arxiv.org/pdf/1810.04826.pdf

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-10-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

最近有啥ML比赛能表现自己的优秀?CVPR2018图像压缩大赛

原作 Michele Covell Root 编译自 谷歌博客 量子位 出品 | 公众号 QbitAI 新的一年来了,想给自己找个难度大的挑战?有哪些问题是有重...

3037
来自专栏AI科技大本营的专栏

教你两种黑掉“人工智能”的方法

翻译 | AI 科技大本营 参与 | shawn 编辑 | Donna 近期,微软(Microsoft)和阿里巴巴(Alibaba)先后宣布,其人工智能系统在一...

4056
来自专栏大数据文摘

[独家]MIT课程笔记:数据可视化会撒谎

2788
来自专栏数据派THU

清华大学张长水教授:机器学习和图像识别(附视频、PPT下载)

本篇干货整理自清华大学自动化系教授张长水于2018年4月27日在清华大学数据科学研究院第二届“大数据在清华”高峰论坛主论坛所做的题为《机器学习和图像识别》的演讲...

4463
来自专栏大数据文摘

开学了,如何用2017年最后三分之一学会深度学习?

1604
来自专栏机器之心

入门 | 从遗传算法到强化学习,一文介绍五大生物启发式学习算法

52810
来自专栏机器之心

业界 | 解密谷歌Gmail新功能:结合BoW模型和RNN-LM,帮助用户快速写邮件

1652
来自专栏大数据文摘

顶尖人工智能无法识别这些简单图像

2364
来自专栏新智元

谷歌神经网络人声分离技术再突破!词错率低至23.4%

把一个人的声音从嘈杂的人群中分离出来是大多数人潜意识里都会做的事情——这就是所谓的鸡尾酒会效应。像谷歌Home和亚马逊的Echo这样的智能扬声器实现分离人群中的...

1344
来自专栏新智元

【重磅】谷歌发布 Zero-Shot 神经机器翻译系统:AI 巴别塔有望成真(附论文)

【新智元导读】谷歌今日更新博客,介绍了谷歌神经机器翻译系统重大更新,实现了用单一模型对多语种通用表征。这种新的模型体积不仅与多语言翻译模型一样,参数相同,而且速...

5077

扫码关注云+社区

领取腾讯云代金券