前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Interspeech2020腾讯天籁论文系列解读

Interspeech2020腾讯天籁论文系列解读

作者头像
腾讯多媒体实验室
发布2020-11-10 14:40:11
1.1K0
发布2020-11-10 14:40:11
举报
文章被收录于专栏:腾讯多媒体实验室

导读 | 本篇文章将解读腾讯多媒体实验室“腾讯天籁”团队在Interspeech2020上同佐治亚理工学院和中国科学技术大学等单位联合发表的3篇论文。Interspeech是语音技术领域的国际顶级会议,今年于10月25至29日在线上举行,根据主办方发布的数据,Interspeech2020共接收到有效论文投稿 2140 篇,其中 1022 篇被接收。

▌01

    在本篇论文中,探索了语音增强领域的深度张量-向量回归模型(deep tensor-to-vector regression models)中,不同模型参数量和增强后语音质量的关系。提出了一种结合深度卷积神经网络(convolutional

neural network,CNNs)和张量训练(tensor-train,TT)输出的混合结构的模型CNN-TT,该网络结构在保证语音质量的同时,达到了降低了模型参数量的目的。同时,在本篇论文中,我们首先推导出了基于卷积神经网络的向量-向量回归模型的泛化上界。而且,该模型不仅适用于单通道降噪模型,对于多通道也表现良好。

  论文地址为:

 https://isca-speech.org/archive/Interspeech_2020/pdfs/1900.pdf

背景

    语音增强的目的在于提高带噪语音的质量和可懂度。近些年来,随着深度神经网络的引入,语音增强领域有了很大的提升。主流的方法是,通过深度网络将带噪语音的频谱向量映射到干净语音频谱向量,该方法对单通道和多通道语音增强都有着令人惊艳的效果。深度卷积神经网络(CNNs)和循环神经网络(recurrentneural networks,RNNs)更进一步的提升了语音增强的性能。但是,深度神经网络通常意味着较大的计算量,对于一些性能受限的硬件设备,往往不能实用。因此,对不同参数量对应的模型性能进行研究是非常有意义的。深度卷积神经网络(CNNs)对于时域空间信息的学习以及提取更结构化的特征信息有着更强大的建模能力,而张量训练深度神经网络(tensor-traindeep neural networks,TT-DNN)能够在保证语音质量不下降的情况下,降低网络参数量,因此我们的CNN-TT网络结合了两个网络的优点。本文中,我们将对DNN、CNN、TT-DNN、CNN-TT的模型参数量以及模型效果在单通道和多通道语音降噪两个领域进行比较。我们的CNN-TT在参数量是CNN模型的32%时,降噪后的语音质量略超过原始的CNN模型,当参数量是原始模型的44%时,该性能得到进一步提升。

模型

    张量训练深度神经网络(TT-DNN)的本质是将网络的输入、输出、权重、偏置均改为张量的形式进行训练,反向传播仍然采用链式传导法则。原理上,对于一个节点数为256的全连接层,如果输入是160*120*3,那么权重的参数量为14745600。而张量训练,是将向量变换为张量的形式,比如输入变换为8*20*20*18,输出变换为4*4*4*4,张量训练的秩为1*4*4*4*1,则只需要2976个参数,参数量的压缩率为2e-4。所以张量训练可以极大的压缩模型的参数量。

    如下图所示,本文提出的模型是CNN-TT如(d)所示,前三个图是我们用于对比的模型,分别是原始的DNN模型、原始的CNN模型、张量训练DNN模型(TT-DNN)。该模型的一个重要优势在于通过将输出全连接层替换为张量训练层,模型计算量得到极大的减小。并且结合CNN和TT的性能上界推断出CNN-TT的上界为:

 实验

    本文所提出来的方法分别在Edinburgh和WSJ0数据集上进行单通道降噪和多通道降噪效果的评估,结果分如表1和表2所示。表1中,张量训练的DNN-TT模型和原始的DNN模型相比,参数量从5.5M下降到0.55M,pesq基本持平。原始的CNN和DNN相比,pesq提升了0.22个点。本文提出的CNN-TT模型参数量从9.1M下降到0.73M时,性能略有下降,下降到2.9M时,性能略有提升。同样的,在表2的多通道语音增强中,CNN-TT在保持pesq不下降的情况下,降低参数量。两个表格中的,Tucker-3是一种在正交空间中计算不同张量模式的高阶扩展奇异值分解方法,在这里作为CNN-TT的对比,可以看到,该方法参数量下降有限,并且语音质量有所下降。

结论

    本文提出了一种结合深度卷积神经网络和张量训练输出的混合结构的模型CNN-TT,该网络结构在保证语音质量的同时,达到了降低了模型参数量的目的。并将该结构和其他几种张量到向量的回归网络进行了对比,在单通道降噪和多通道降噪上均给出了实验对比。

▌02

接下来,我们将介绍论文

《Relational Teacher Student Learning with Neural Label Embedding forDevice Adaptation in Acoustic Scene Classification》。

    在这篇论文中,提出了基于域自适应的框架来处理声学场景识别中设备不匹配的问题,这种框架是基于神经标注提取(Neural Label Embedding, NLE) 和关系性的老师-学生学习(Relational teacher student learning, RTSL)。通过综合考滤到不同声学场景之间的结构性关系,提出的方法可以实现设备非相关的系统。训练阶段,可转移知识在NLE模块被提取出来,在自适应阶段,全新提出的RTSL策略被使用来学习目标声学模型,学习过程中没有使用配对好的源-目标数据,而这些源-目标数据在传统老师学生模型中是必须的。在DCASE 2018 Task 1b的数据集上验证, 单独的NLE方法可以达到传统设备自适应和老师学生技术。NLE和RTSL相结合后,可以更进一步提高系统的识别性能。 

    论文地址为:

https://isca-speech.org/archive/Interspeech_2020/pdfs/2038.pdf

背景

    近些年来,声学场景识别性能有了很大的提升,在学术与工业界越来越多的队伍进行做此类研究,例如像国际顶尖级别的声学场景识别比赛(DCASE challenge)。性能最好的系统采用了深度学习网络(DNNs)来处理声学场景识别。深度卷积神经网络(CNNs)更进一步的提升了声学场景识别的性能。后来,基于对抗神经网络(GAN)与可变自回归网络(VAE)被用来扩充传统的数据扩充方法,如Mix-up,加减速等。尽管如此,这些声学场景识别系统还是不能处理不匹配的信道问题,比如声音由不同的设备采集,而不同设备采集是声学信号采集不可避免的一部分。所以在DCASE2018 Task1b中就新增加了关于不同设备采集声学场景识别的任务。这个任务就是使场景识别的系统可以识别不同设备采集的信号,保证尽可能的准确,同时训练的语料也相对较少。基于老师-学生(TS)的方法,也被称为知识蒸馏,在声学场景里面被证明了有效性。关键思想就是最小化老师模型与学生模型分布之间的距离。NLE是最近几年被提出来解决不同域之间的蒸馏操作。这篇文章通过使用不同声学场景之间的关系来扩展了NLE的机制,提出了RTSL的方法来解决不同设备不匹配的问题。

模型

    如下图所示,本文提出来的模型有三个方面,第一个是源模型训练(SourceModel Training),第二个NLE 标签生成(NLELable Generatation),第三个是不同设备域的NLE自适应过程(NLEfor Device Domain Adaptation)。在源模型训练阶段,NLE为声学场景识别系统独立构建一个单独的深度学习网络模型。在NLE标签生成阶段,NLE生成的Label可以替代源数据中的one-hot向量。在不同设备域的NLE自适应过程就是获取自适应后的目标模型。

实验

    本文所提出来的方法在DCASE 2018 Task1b开发集上进行评估。DCASE 2018 Task1b提供了28个小时的声学场景录制数据,使用了三种不同的设备设备A有24个小时,设备B和C各自有2个小时,录制的音频每10秒一个片断。

上述表格给出了在DCASE 2018 Task1b上的一些实验结果,最上面一行可以看到不同的设备采集的声音信号在同样的识别系统上的确有不同的识别性能。Official Baseline,AlexNet-L(All Devs)使用了所有设备录制的数据,AlexNet-L(Dev A) 仅使用了设备A录制的数据,所以在设备B和C上的识别性能很低。本文中采用的方法最终在设备B和设备C上采集的信号得到了最好的性能效果。

结论

    本文提出了一个老师学生方案的神经网络表征技术来解决设备不匹配的问题。本文做了一个不同声学场景间的一些共性与不同。这些结构性的关系在网络中被学习到后被编码进入NLE中,然后把源设备域自适应到目标设备域。所提出来方法与技术方案在DCASE 2018 Task1b上被验证取得了有效的性能提升。

▌03

    最后,我们来介绍论文《An Acoustic Segment Model Based Segment UnitSelection Approach to Acoustic Scene Classification with Partial Utterances》。

    在这篇论文中, 我们主要探究通过声学单元选择的方式提升声学场景分类任务的准确性。首先通过声学分段模型(ASMs)对声学单元建模,然后检测停止声学分段模型(stop ASMs)来屏蔽相关声学段。在DCASE2018任务上,我们提出的方法在没有进行数据扩增的情况下将场景分类准确率由68%提升到了72.1%,并取得了和AlexNet-L模型可比的效果,

   论文地址为:

    https://isca-speech.org/archive/Interspeech_2020/pdfs/2044.pdf

背景

    声学场景分类主要是对实际生活中的声音片段进行分类,判断其属于何种环境类型,比如地铁站,街道,公园等。目前现在的声学场景分类方法中效果最好的主要是基于深度神经网络,尤其是CNN网络,而引入注意力机制和基于深度神经网络的数据扩增等方法进一步提升了其效果。

 系统介绍

    本文使用的基于ASMs指导的声学单元选择方案,过滤去除和声学场景相关性较小的单元,只利用信息量较大的相关单元,其系统框图如下图:

    具体的ASM序列可由两个步骤获得:

    1. 通过无监督方式初始化ASM,使其每个声学单元的长度相同

    2. 在初始ASM上建立GMM-HMM或者DNN-HMM系统来生成ASM序列

而stop ASMs通过Mean Probability(MP)、Inverse Document Frequency(IDF)、Variance of Probability(VP)、 StatisticalValues(SATs)等4种方法获得最高概率的单元。

实验结果

    本文的实验建立在DCASE2018比赛数据上,共用48kH采样率的数据24小时,分为10个场景,并分别分为6122句的训练集和2518句的测试集, 我们的基线系统采用压缩后的AlexNet-L模型,实验结果如下表:

    我们可以发现, 引入ASM后可以将AlexNet-L基线系统性能提升到70.1%,而通过GMM-HMM和DNN-HMM方式进一步优化ASM后,其性能可进一步提升到72.1%。

结论

    综上所述,实验结果表明,通过引入基于ASM的前端声学单元选择方式,只利用部分信号的有用信息,在通过声学分段建模选择和基于CNN的模型分类两个步骤,实现了无数据扩增情况下的单系统最好的可比效果。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯音视频实验室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档