Interspeech 2017:腾讯音视频实验室王燕南博士论文入选,并获邀做口头报告

2017年8月20日,语音通信领域国际顶级学术会议Interspeech 2017在瑞典斯德哥尔摩召开。

Interspeech是由国际语音通信协会ISCA(International Speech Communication Association)组织的语音研究领域的顶级会议之一,是全球最大的综合性语音信号处理领域的科技盛会。该会议每年举办一次,每次都会吸引全球语音信号领域以及人工智能领域知名学者、企业以及研发人员参加。

本届Interspeech会议主题是“情景互动”,研究影响和形成交流互动的情境、上下文和人类行为因素,研究应该赋予机器何种情境感知、社会情感和对话能力从而使其能够以人类的方式和人类进行对话。本届会议上,包括苹果、谷歌、微软、亚马逊以及腾讯、阿里巴巴、百度、滴滴等国内外知名公司悉数亮相。

腾讯音视频实验室王燕南博士论文入选Interspeech 2017,并受邀在会场进行了题为“A Maximum Likelihood Approach to Deep Neural Network Based Nonlinear Spectral Mapping for Single-Channel Speech Separation”的oral报告,主要内容是研究在单通道语音分离中应用的深度神经网路的训练优化。单通道语音分离旨在于从混合的多个说话人语音信号中分离出目标说话人的语音,在语音识别、语音通话以及残疾人助听领域等均具有重要应用。

论文名称:A Maximum Likelihood Approach to Deep Neural Network Based Nonlinear Spectral Mapping for Single-Channel Speech Separation

这篇文章着重于改进在单通道语音分离汇总基于深度神经网络的频谱映射方法中常用的最小均方误差准则(MMSE, minimum mean squared error)。在基于深度神经网络的单通道语音分离中,通过多类回归方法从混合语音频谱中恢复目标说话人的语音,主要是基于MMSE准则最小化网络输出的语音频谱和目标频谱的差异。对此,我们通过对深度神经网络的输出的预测错误进行统计分析,我们发现输出的对数功率谱每一维分量都服从一个单峰分布。如下图所示:

由此我们引入零均值的高斯分布函数来描述神经网络的预测错误矢量,引入对其进行概率分布的学习,从而使用最大似然估计方法训练深度神经网络的参数。如下图所示:

通过实验对比发现,基于该最大似然方法训练的神经网络分离的语音在不同的客观指标上均超过了使用传统的最小均方误差准则训练的神经网络。

另外,通过在验证集上的reconstructionloss的变化情况对比,我们发现该模型有更强的泛化能力,而在收敛速度上,该方法也具有明显的优势。对比情况如下图所示:

报告结束后,现场人员提出了关于训练过程中如何更新协方差矩阵、训练数据生成方式以及训练收敛速度等问题,王燕南博士分别给予了相应的解答。

王燕南,毕业于中国科学技术大学语音信号与信息处理国家工程实验室,研究领域包括语音增强和分离、语种识别、手写识别等,在Interspeech等著名语音国际会议以及 IEEE Transaction onAudio,Speech and Language Processing 期刊发表多篇文章,在无监督语音分离方法上做出了重要贡献。王博士于2017年加入腾讯音视频实验室,专注于语音增强以及分离等前端信号处理领域研究。

关于腾讯音视频实验室

腾讯音视频实验室,组建于2016年11月,专注于音视频通信技术的前瞻性研究,包括全球实时音视频网络优化,音视频编解码前沿算法研究、计算机视觉图像处理、基于AI 的音频语音增强、声音美化及音视频质量评测等。在服务于腾讯社交体系下的海量用户同时,在实时音视频通信、图像处理和音视频处理等技术领域积累了十几年的研究经验,拥有行业领先的技术水平。目前已为行业数百个产品提供了音视频技术支持与服务,如QQ电话、腾讯云、企业微信、QQ空间、全民K歌、快手、斗鱼、虎牙、蘑菇街等;

原文发布于微信公众号 - 腾讯音视频实验室(TencentAVLab)

原文发表时间:2017-08-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

业界 | 腾讯论文入选Interspeech 2017:在单通道语音分离中应用的深度神经网路的训练优化

AI 科技评论按:2017年8月20日,语音通信领域的国际顶级学术会议Interspeech 2017在瑞典斯德哥尔摩召开,腾讯音视频实验室王燕南博士的一篇论文...

49870
来自专栏CVer

一周AI要闻

1. NIPS 2018:行人重识别告别辅助姿势信息,港中大、商汤和中科大提出姿势无关的特征提取GAN

9830
来自专栏新智元

【MIT计算机视觉预测城市衰落】下一个北上广在哪?人才比钱重要

【新智元导读】 一个社区,一个城市的未来会发展成什么样?计算机视觉可以告诉我们答案。MIT 媒体实验室的研究员分析了160万组拍摄于不同年份的照片。使用比较的结...

33240
来自专栏AI研习社

未来 3-5 年内,哪个方向的机器学习人才最紧缺?

既然已经身在工业届,那么我就谈谈工业界未来几年需要什么样的机器学习人才。不谈学术界主要还是因为大部分人最终不会从事研究,而会奋斗在应用领域。相较而言,工业界对人...

29560
来自专栏腾讯高校合作

犀牛鸟基金获奖者中科院自动化所刘康博士获COLING2014最佳论文奖

<图为在中国计算机大会上吕建院士、王巨宏女士为刘康博士(中)颁奖> 在刚刚结束的第25届计算语言学国际会议COLING2014颁奖仪式上,CCF-腾讯犀牛鸟基...

33670
来自专栏量子位

未来 3~5 年内,哪个方向的机器学习人才最紧缺?

作者:阿萨姆 普华永道 | 数据科学家 量子位 已获授权编辑发布 转载请联系原作者 既然已经身在工业界,那么我就谈谈工业界未来几年需要什么样的机器学习人才。 不...

27450
来自专栏人工智能头条

专访 | 清华大学朱军:深度学习“盛行”,传统方法何去何从?

17120
来自专栏AI科技评论

业界 | 更善于自动抓拍「有趣」瞬间:谷歌 Clips AI 拍照新技术

尽管深度学习已经在近期取得了一些进步,但在其在自动摄影方面依旧面临着一项极具挑战的难题:相机能够自动抓拍到精彩的瞬间吗?

10530
来自专栏机器学习算法与Python学习

资源 | 深度学习 &amp; ChatBot全面总结

该总结是在EMNLP 2018中由微软首席科学家武威和北京大学助理教授严睿关于聊天机器人(ChatBots)近年来的全面总结,并附带Slides下载。

11210
来自专栏CSDN技术头条

深度学习“盛行”,传统方法何去何从?

记者 | 何永灿 朱军博士是清华大学计算机系长聘副教授、智能技术与系统国家重点实验室副主任、卡内基梅隆大学兼职教授。2013年,入选IEEE Intellige...

276100

扫码关注云+社区

领取腾讯云代金券