业界 | 腾讯论文入选Interspeech 2017:在单通道语音分离中应用的深度神经网路的训练优化

AI 科技评论按:2017年8月20日,语音通信领域的国际顶级学术会议Interspeech 2017在瑞典斯德哥尔摩召开,腾讯音视频实验室王燕南博士的一篇论文入选,并获邀在大会作了oral报告。

Interspeech是由国际语音通信协会ISCA(International Speech Communication Association)组织的语音研究领域的顶级会议之一,是全球最大的综合性语音信号处理领域的科技盛会,该会议每年举办一次,每次都会吸引全球语音信号领域以及人工智能领域知名学者、企业以及研发人员参加。

今年的Interspeech,除了学术界巨擘之外,苹果、谷歌、微软、亚马逊、腾讯、阿里巴巴、百度、滴滴等在内的国内外知名公司也悉数亮相。腾讯音视频实验室王燕南博士论文《A Maximum Likelihood Approach to Deep Neural Network Based Nonlinear Spectral Mapping for Single-Channel Speech Separation》入选 Interspeech 2017。

下图为历年Interspeech论文收录情况,过去三年收录文章的数量分别为614、746、779。

(数据来源:Interspeech 2016大会主办方欢迎报告)

王博士的论文主要内容是研究在单通道语音分离中应用的深度神经网路的训练优化,该技术旨在从混合的多个说话人的语音信号中分离出目标说话人的语音,在语音识别、语音通话以及残疾人助听领域等均具有重要应用。

在这篇论文中,王博士的研究着重于改进单通道语音分离汇总基于深度神经网络的频谱映射方法中常用的最小均方误差准则(MMSE, minimum mean squared error)。在基于深度神经网络的单通道语音分离中,通过多类回归方法从混合语音频谱中恢复目标说话人的语音,主要是基于MMSE准则最小化网络输出的语音频谱和目标频谱的差异。对此,王博士等人通过对深度神经网络的输出的预测错误进行统计分析,发现输出的对数功率谱每一维分量都服从一个单峰分布,如下图所示:

由此引入零均值的高斯分布函数来描述神经网络的预测错误矢量,引入对其进行概率分布的学习,从而使用最大似然估计方法训练深度神经网络的参数,如下图所示。

通过实验对比发现,基于该最大似然方法训练的神经网络分离的语音在不同的客观指标上均超过了使用传统的最小均方误差准则训练的神经网络。

另外,通过在验证集上的reconstruction loss的变化情况对比,王博士等人发现该模型有更强的泛化能力,而在收敛速度上,该方法也具有明显的优势,对比情况如下图所示。

关于王燕南博士

王燕南,毕业于中国科学技术大学语音信号与信息处理国家工程实验室,研究领域包括语音增强和分离、语种识别、手写识别等,在Interspeech等著名语音国际会议以及IEEE Transaction on Audio,Speech and Language Processing期刊发表多篇文章,在无监督语音分离方法上做出了重要贡献。王博士于2017年加入腾讯音视频实验室,专注于语音增强以及分离等前端信号处理领域研究。

关于腾讯音视频实验室

腾讯音视频实验室, 组建于2016年11月,专注于音视频通信技术的前瞻性研究,包括全球实时音视频网络优化,音视频编解码前沿算法研究、计算机视觉图像处理、基于AI 的音频语音增强、声音美化及音视频质量评测等。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-08-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏镁客网

黑科技 | 拓扑学与物理学结合,量子计算机正在成为现实

1140
来自专栏腾讯高校合作

犀牛鸟基金获奖者中科院自动化所刘康博士获COLING2014最佳论文奖

<图为在中国计算机大会上吕建院士、王巨宏女士为刘康博士(中)颁奖> 在刚刚结束的第25届计算语言学国际会议COLING2014颁奖仪式上,CCF-腾讯犀牛鸟基...

2847
来自专栏机器之心

专栏 | 腾讯音视频实验室Interspeech 2017论文:单通道语音分离中应用深度神经网络的训练优化

机器之心专栏 腾讯音频实验室 2017 年 8 月 20 日,语音通信领域的国际顶级学术会议 Interspeech 2017 在瑞典斯德哥尔摩召开,腾讯音视...

2703
来自专栏AI科技评论

旷视科技首席科学家孙剑:登上“人工智能之月”,我们爬树还是造火箭?

雷锋网按:本文根据孙剑博士在微软亚洲研究院召开的“让世界充满 AI-人工智能研讨会”上所做的报告《通向视觉智能之路》 编辑整理而来,在未改变原意的基础上略有删减...

3355
来自专栏大数据文摘

12位专家,展望未来5年深度学习发展趋势

1978
来自专栏华章科技

黑科技神应用:人工智能已经开始修长城!

通过英特尔人工智能技术、深度学习技术、无人机技术等,如何实现对于箭扣长城的保护与修缮?答案就在视频里。

712
来自专栏人工智能头条

我用AI修长城

科技正在以一种近乎革命性的手段解决生活中真实存在的难题。人工智能的出现,重新定义了文物保护的方法,克服了传统方式中的困难和挑战,以更快、更高效的方式解决凭借人力...

773
来自专栏灯塔大数据

观点|12位专家展望未来5年深度学习发展趋势

? 2015年已然过去,2016刚刚开始,回头将目光集中于去年的成就上,以及对将来科学趋势的预测。去年最令人瞩目的一个领域就是深度学习,它是机器学习中越来越流...

33914
来自专栏大数据挖掘DT机器学习

数据挖掘中最易栽的11个大坑

按照Elder博士的总结,11大易犯错误:   1、缺乏数据   2、太关注训练   3、只依赖一项技术   4、提错了问题   5、只靠数据来说话   6...

2745
来自专栏机器之心

NIPS 2017 | 清华大学人工智能创新团队在AI对抗性攻防竞赛中获得冠军

2909

扫描关注云+社区