专栏 | 腾讯音视频实验室Interspeech 2017论文：单通道语音分离中应用深度神经网络的训练优化

机器之心

发布于 2018-05-08 11:07:55

1.2K0

发布于 2018-05-08 11:07:55

文章被收录于专栏：机器之心

机器之心专栏

腾讯音频实验室

2017 年 8 月 20 日，语音通信领域的国际顶级学术会议 Interspeech 2017 在瑞典斯德哥尔摩召开，腾讯音视频实验室王燕南博士的一篇论文入选，并获邀在大会作了 oral 报告，本文对此论文进行了介绍。读者可点击阅读原文查看该论文。

Interspeech 是由国际语音通信协会 ISCA（International Speech Communication Association）组织的语音研究领域的顶级会议之一，是全球最大的综合性语音信号处理领域的科技盛会，该会议每年举办一次，每次都会吸引全球语音信号领域以及人工智能领域知名学者、企业以及研发人员参加。

腾讯音视频实验室王燕南博士的论文《A Maximum Likelihood Approach to Deep Neural Network Based Nonlinear Spectral Mapping for Single-Channel Speech Separation》入选 Interspeech 2017，并受邀在会场进行了 oral 报告。

王燕南博士的论文主要内容是研究在单通道语音分离中应用的深度神经网络的训练优化，该技术旨在从混合的多个说话人的语音信号中分离出目标说话人的语音，在语音识别、语音通话以及残疾人助听领域等均具有重要应用。

瑞典当地时间 8 月 22 日下午两点半，在 Interspeech 2017 会场，王博士做 oral 报告。

在这篇论文中，王博士的研究着重于改进单通道语音分离汇总基于深度神经网络的频谱映射方法中常用的最小均方误差准则（MMSE, minimum mean squared error）。在基于深度神经网络的单通道语音分离中，通过多类回归方法从混合语音频谱中恢复目标说话人的语音，主要是基于 MMSE 准则最小化网络输出的语音频谱和目标频谱的差异。对此，王博士等人通过对深度神经网络的输出的预测错误进行统计分析，发现输出的对数功率谱每一维分量都服从一个单峰分布，如下图所示：

由此引入零均值的高斯分布函数来描述神经网络的预测错误矢量，引入对其进行概率分布的学习，从而使用最大似然估计方法训练深度神经网络的参数，如下图所示。

通过实验对比发现，基于该最大似然方法训练的神经网络分离的语音在不同的客观指标上均超过了使用传统的最小均方误差准则训练的神经网络。

另外，通过在验证集上的 reconstruction loss 的变化情况对比，王博士等人发现该模型有更强的泛化能力，而在收敛速度上，该方法也具有明显的优势，对比情况如下图所示。

作者简介 王燕南，毕业于中国科学技术大学语音信号与信息处理国家工程实验室，研究领域包括语音增强和分离、语种识别、手写识别等，在 Interspeech 等著名语音国际会议以及 IEEE Transaction on Audio,Speech and Language Processing 期刊发表多篇文章，在无监督语音分离方法上做出了重要贡献。王博士于 2017 年加入腾讯音视频实验室，专注于语音增强以及分离等前端信号处理领域研究。 关于腾讯音视频实验室 腾讯音视频实验室，组建于 2016 年 11 月，专注于音视频通信技术的前瞻性研究，包括全球实时音视频网络优化，音视频编解码前沿算法研究、计算机视觉图像处理、基于 AI 的音频语音增强、声音美化及音视频质量评测等。在服务于腾讯社交体系下的海量用户同时，在实时音视频通信、图像处理和音视频处理等技术领域积累了十几年的研究经验，拥有行业领先的技术水平。目前已为行业数百个产品提供了音视频技术支持与服务，如 QQ 电话、腾讯云、企业微信、QQ 空间、全民 K 歌、快手、斗鱼、虎牙、蘑菇街等。