学界 | 批训练、注意力模型及其声纹分割应用,谷歌三篇论文揭示其声纹识别技术原理

机器之心报道

作者:邱陆陆

声纹识别技术在谷歌的诸多产品中有着重要应用。除了安卓手机目前所独有的声纹解锁功能外,谷歌的家庭语音助手 Google Home 也能通过声纹识别支持多用户模式,从而针对不同用户提供个性化服务。当你向 Google Home 查询自己的日程时,Google Home 会根据声纹判断出是你,而非其他也可能使用该设备的家庭成员在进行查询,并从你的日历中提取数据。这种多用户模式,是 Amazon Echo 等其他同类语音助手产品所不具有的。

近日,谷歌在 arXiv 上发布了三篇论文,详细介绍了其声纹识别技术的核心实现方法。

第一篇论文 Generalized End-to-End Loss for Speaker Verification,第一作者万力。文中介绍了一种基于批(batch)的训练方法。一般的方法中,神经网络的训练目标是让同一说话者的不同语音片段之间的声纹特征变得相似,而让任意两个不同说话者之间的声纹特征变得不同。而这种基于批的训练,则是将同一批中每个说话者与其最相似的说话者的声纹特征变得不同。论文通过理论和实验论证了,这种始终针对最困难案例进行优化的训练方式,能够极大地提升训练速度和效果。

这篇论文还介绍了一种叫做 MultiReader 的技术,允许在多个大小极度失衡的数据源上训练同一个模型,从而做到一个模型支持多个唤醒词及多种口音。根据该论文,Google Home 通过一个单独的声纹模型同时支持这两个唤醒词,并支持不同地域的口音。即使用户只用一个唤醒词完成声纹注册,当用户使用另一个唤醒词时,声纹识别依然能做到极高的准确率(EER 分别为 2.30% 和 2.99%)。这是流行的语音助手产品中首次用单一声纹模型实现多唤醒词技术。

在第二篇论文 Attention-Based Models for Text-Dependent Speaker Verification 中,作者介绍了多种注意力模型,使得神经网络能够将更大的权重赋予音频信号中的有效语素,并忽略可能会损害识别结果的非语音信号。文中尝试了不同的注意力评分函数,包括线性的与非线性的,时域共享参数的与时域不共享参数的等。此外,文中还尝试将注意力连接到神经网络的不同深度,以及对注意力采用不同的最大池化方法。最后,通过结合多种注意力技术,模型能将声纹识别的错误率(EER)降低 14% 左右。有趣的是,文中还对训练过程中所学到的注意力进行了可视化,从中可以清楚地观察到,音频中的有效语素能够得到较大的注意力权重,而语素之间的杂音则被忽略。

第三篇论文 Speaker Diarization with LSTM,第一作者王泉。该论文将前两篇论文中所提到的声纹模型用于解决一个新的问题——多音源环境下的声纹分割。该论文所介绍的方法首先从音频信号中提取互相重叠的滑动窗口,然后从各个窗口中提取声纹特征,最后采用频谱聚类(spectral clustering)的方法将每个滑动窗口对应到相应说话者。这是目前为止业界唯一使用 LSTM 解决声纹分割的实现。在标准数据集 CALLHOME 上,该系统达到了 6% 的混淆错误率(DER),远远优于此前的任何其他方法。这套声纹分割系统将可以被用于从 YouTube 视频等多媒体中提取单一说话者的音频片段,并大大提高语音识别的准确率。

这三篇论文均投稿至语音识别顶级会议 ICASSP 2018,以下是对这几篇论文的摘要介绍:

论文:Generalized End-to-End Loss for Speaker Verification

链接:https://arxiv.org/abs/1710.10467

在此论文中,我们提出一种新的损失函数:泛化端到端(GE2E)损失函数。相比于之前基于元组的端到端(TE2E)损失函数,该函数使得声纹识别模型的训练变得更高效。不同于 TE2E,GE2E 损失函数在训练过程中,依据每一步所遇到的最困难样本来更新网络。此外,GE2E 也不需要额外的样本选择步骤。在这些优势下,使用该新型损失函数的模型能学到更好的模型,错误率(EER)降低超过 10%,在训练时间上减少了 60%。我们也引入了 MultiReader 技术,能让我们做域适应,从而训练更准确的模型来支持多种关键词(例如,「OK Google」、「Hey Google」以及多种方言)。

论文:Attention-Based Models for Text-Dependent Speaker Verification

链接:https://arxiv.org/abs/1710.10470

如今,基于注意的模型在多种任务上有极佳的表现,例如语音识别、机器翻译、图像描述等,这是因为注意模型能够从完整长度的输入序列上总结出相关信息。在此论文中,我们分析了注意机制在端到端固定文本声纹识别系统中序列总结问题上的使用。我们探索了注意层的不同拓扑及其变体,并对比了在注意权重上的不同池化方法。最后,相比于非基于注意的 LSTM 模型,基于注意的模型能把我们声纹识别系统的错误率(EER)降低 14% 左右。

论文:Speaker Diarization with LSTM

链接:https://arxiv.org/abs/1710.10468

多年以来,基于 i-vector 的声纹特征提取技术一直是声纹识别与声纹分割应用的主要方法。然而,随着深度学习方法在各个领域的崛起,基于神经网络的声纹特征提取,也就是 d-vectors 技术,始终如一地证明着其在声纹识别上的卓越表现。在此论文中,在基于 d-vector 的声纹识别系统的成功之上,我们开发了一种新的基于 d-vector 的声纹分割方法。特别是,我们把基于 LSTM 的 d-vectory 音频特征提取与近期在非参数聚类上的研究成果结合,在声纹分割系统上取得了界内最佳成果。我们在 CALLHOME American English 数据集、2003 NIST CTS 数据集上的实验结果证明,基于 d-vector 的声纹分割系统相比于传统的基于 i-vector 的系统有显著的优势。

本文为机器之心报道,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-11-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

总结 | 清华大学韩旭:神经关系抽取模型

AI 科技评论按:关系抽取是自然语言处理中的重要任务,也是从文本中挖掘知识的基本途径之一。深度学习在关系抽取中的研究在近几年取得了广泛关注,其中基于远距离监督、...

1464
来自专栏AI科技评论

学界 | 好奇心驱动学习,让强化学习更简单

雷锋网 AI 科技评论按:强化学习在最近几年中都是最热门的研究领域之一,但是复杂环境中难以训练、训练后难以泛化的问题始终没有得到完全的解决。好奇心驱动的学习是一...

943
来自专栏新智元

【10亿+数据集,ImageNet千倍】深度学习未来,谷歌认数据为王

【新智元导读】数据重要还是算法重要?一篇新的论文或许给出了答案。使用一个 300 倍于 ImageNet 的新数据集,谷歌研究人员发现,随着数据增长,模型完成计...

4124
来自专栏数据科学与人工智能

tensorflow高质量资料汇总

tensorflow高质量资料,让您又快又好地学习和应用tensorflow。 本文汇总tensorflow的高质量资料,包括:文档、论文、书籍、课程和案例。 ...

3565
来自专栏EAWorld

拥抱人工智能,从机器学习开始

自“阿尔法狗”(AlphaGo)完胜人类围棋顶尖高手后,有关人工智能(AI)的讨论就从未停歇。工业4.0方兴未艾,人工智能引领的工业5.0时代却已悄然苏醒。人工...

1433
来自专栏量子位

三角兽首席科学家分享实录:基于对抗学习的生成式对话模型

主讲人:三角兽首席科学家 王宝勋 颜萌 整理编辑 量子位 出品 | 公众号 QbitAI 对抗学习和对话系统都是近年来的新热点。今年7月,三角兽研究组与哈工大I...

3716
来自专栏Spark学习技巧

Emdedding向量技术在蘑菇街推荐场景的应用

3613
来自专栏华章科技

揭开深度学习黑箱:希伯来大学计算机科学教授提出「信息瓶颈」

一个称为「信息瓶颈」的新想法有助于解释当今人工智能算法的黑箱问题——以及人类大脑的工作原理。

933
来自专栏机器之心

资源 | 实时评估世界杯球员的正确姿势:FAIR开源DensePose

左图:输入;中图:对应的 DensePose-RCNN 结果;右图:人体分割和 UV 参数化。

1230
来自专栏人工智能头条

开发者成功使用机器学习的十大诀窍

1344

扫码关注云+社区

领取腾讯云代金券