声纹识别 | attention在声纹识别中的应用

马上科普尚尚

发布于 2020-06-09 14:48:19

3.2K1

发布于 2020-06-09 14:48:19

最近看了几篇文章，都是关于注意力机制在声纹识别中的应用。然后我主要是把其中两篇文章整合了一下，这两篇文章发表在interspeech 2018/19上。两个团队分别是港科和约翰霍普金斯大学(Daniel povey)；以及东京工业大学

写这篇文章的目的是想基于这两篇工作讲一讲attention在语音中的应用，让大家对attention了解更深入一些。关于attention，在CV领域的注意力机制比较直观，容易理解。在语音及其声纹领域还是费解、抽象一些。可以看看台大李宏毅老师的transformer：https://www.youtube.com/watch?v=ugWDIIOHtPA

Okay，let’s get started!

Paper1：Attentive Statistics Pooling for Deep Speaker Embedding

Abstract

这篇paper提出了对于深度说话人嵌入(deep speaker embedding)的注意力统计池。在传统的说话人嵌入中，帧级特征(frame-level features)是在单个话语的所有帧上平均以形成话语水平特征(utterance-level feature)。文章的方法是使用注意力机制给不同的帧不同的权重，并且同时生成加权平均数、加权标准差。在这种方式下，它可以有效地捕获到更长期的说话人特征变化。最终在NIST SRE 2012评测和VoxCeleb数据集上的表现证明了模型的对于speaker recognition有效性。

Introduction

这一部分列了一些说话人识别的发展历史、背景的介绍

1. 说话人识别结合i-vector发展的非常快，i-vector主要是把说话人表征在固定低维度的特征向量。

2. 深度学习用于speech中的特征提取。但是这和GMM-UBM模型对比的差别还是依赖于大量的语音数据。才能提出比较鲁棒、好的特征，但是语音的数据标注很麻烦、非常贵。

3. 近年来，DNNs可以独立于i-vector框架，单独提取说话人识别特征向量。特别是在短时间的话语条件下，这种方法取得更好的效果。

4. 文本无关说话人认证中，加入了一个平均池化层使得输入不定长语音的帧级特征可以被整合为语句级别特征

5. 注意力机制从一开始用于NLP，目前也在逐渐被应用到这个领域。

6. 提出了一种新的池化方式，叫做注意力统计池化能够输出权重标准差、帧级特征的权重平均值，规避了上面3说到的DNN提特征方法往往对于短时语音效果的缺点，即也可以应用于长时语音

上图中首先是我们的音频会分成很多帧，由帧级特征提取器提出不同的帧，帧级特征进入池化层，池化层的作用就是把这些帧级特征平均，得到言语级的特征。再根据言语级的特征辨识出说话人的特征。

由此得到加权后的平均值和标准差

Evaluation

下面采用了5种embedding的方法，测试NIST SRE2012 通用场景2；NIST SRE2012 说话时长；VoxCeleb共三种情况。比较神奇的是i-vector经常作为一种baseline方案，居然有如此低的EER，文中给出的解释是NIST 2012数据集中的数据语音本身就比较长，我的理解是因为i-vector和gmm-ubm都属于概率统计模型，概率统计还是当数据量足够大的时候，统计参数越准确，效果越好。

Conclusion

我们已经提出了注意力统计池化方式来提取deep speaker embedding，池化层计算的是经过注意力机制作用的加权特征平均值、加权特征标准差。这使得说话人其纳入能够focus重要的帧。不仅如此，长时间的偏差能够被说话人统计在标准差中。比如结合了注意力机制和标准差提供了协同效应。