2017年8月20日,语音通信领域国际顶级学术会议Interspeech 2017在瑞典斯德哥尔摩召开。
Interspeech是由国际语音通信协会ISCA(International Speech Communication Association)组织的语音研究领域的顶级会议之一,是全球最大的综合性语音信号处理领域的科技盛会。该会议每年举办一次,每次都会吸引全球语音信号领域以及人工智能领域知名学者、企业以及研发人员参加。
本届Interspeech会议主题是“情景互动”,研究影响和形成交流互动的情境、上下文和人类行为因素,研究应该赋予机器何种情境感知、社会情感和对话能力从而使其能够以人类的方式和人类进行对话。本届会议上,包括苹果、谷歌、微软、亚马逊以及腾讯、阿里巴巴、百度、滴滴等国内外知名公司悉数亮相。
腾讯音视频实验室王燕南博士论文入选Interspeech 2017,并受邀在会场进行了题为“A Maximum Likelihood Approach to Deep Neural Network Based Nonlinear Spectral Mapping for Single-Channel Speech Separation”的oral报告,主要内容是研究在单通道语音分离中应用的深度神经网路的训练优化。单通道语音分离旨在于从混合的多个说话人语音信号中分离出目标说话人的语音,在语音识别、语音通话以及残疾人助听领域等均具有重要应用。
论文名称:A Maximum Likelihood Approach to Deep Neural Network Based Nonlinear Spectral Mapping for Single-Channel Speech Separation
这篇文章着重于改进在单通道语音分离汇总基于深度神经网络的频谱映射方法中常用的最小均方误差准则(MMSE, minimum mean squared error)。在基于深度神经网络的单通道语音分离中,通过多类回归方法从混合语音频谱中恢复目标说话人的语音,主要是基于MMSE准则最小化网络输出的语音频谱和目标频谱的差异。对此,我们通过对深度神经网络的输出的预测错误进行统计分析,我们发现输出的对数功率谱每一维分量都服从一个单峰分布。如下图所示:
由此我们引入零均值的高斯分布函数来描述神经网络的预测错误矢量,引入对其进行概率分布的学习,从而使用最大似然估计方法训练深度神经网络的参数。如下图所示:
通过实验对比发现,基于该最大似然方法训练的神经网络分离的语音在不同的客观指标上均超过了使用传统的最小均方误差准则训练的神经网络。
另外,通过在验证集上的reconstructionloss的变化情况对比,我们发现该模型有更强的泛化能力,而在收敛速度上,该方法也具有明显的优势。对比情况如下图所示:
报告结束后,现场人员提出了关于训练过程中如何更新协方差矩阵、训练数据生成方式以及训练收敛速度等问题,王燕南博士分别给予了相应的解答。
王燕南,毕业于中国科学技术大学语音信号与信息处理国家工程实验室,研究领域包括语音增强和分离、语种识别、手写识别等,在Interspeech等著名语音国际会议以及 IEEE Transaction onAudio,Speech and Language Processing 期刊发表多篇文章,在无监督语音分离方法上做出了重要贡献。王博士于2017年加入腾讯音视频实验室,专注于语音增强以及分离等前端信号处理领域研究。
关于腾讯音视频实验室
腾讯音视频实验室,组建于2016年11月,专注于音视频通信技术的前瞻性研究,包括全球实时音视频网络优化,音视频编解码前沿算法研究、计算机视觉图像处理、基于AI 的音频语音增强、声音美化及音视频质量评测等。在服务于腾讯社交体系下的海量用户同时,在实时音视频通信、图像处理和音视频处理等技术领域积累了十几年的研究经验,拥有行业领先的技术水平。目前已为行业数百个产品提供了音视频技术支持与服务,如QQ电话、腾讯云、企业微信、QQ空间、全民K歌、快手、斗鱼、虎牙、蘑菇街等;