业界 | 腾讯论文入选Interspeech 2017:在单通道语音分离中应用的深度神经网路的训练优化

AI 科技评论按:2017年8月20日,语音通信领域的国际顶级学术会议Interspeech 2017在瑞典斯德哥尔摩召开,腾讯音视频实验室王燕南博士的一篇论文入选,并获邀在大会作了oral报告。

Interspeech是由国际语音通信协会ISCA(International Speech Communication Association)组织的语音研究领域的顶级会议之一,是全球最大的综合性语音信号处理领域的科技盛会,该会议每年举办一次,每次都会吸引全球语音信号领域以及人工智能领域知名学者、企业以及研发人员参加。

今年的Interspeech,除了学术界巨擘之外,苹果、谷歌、微软、亚马逊、腾讯、阿里巴巴、百度、滴滴等在内的国内外知名公司也悉数亮相。腾讯音视频实验室王燕南博士论文《A Maximum Likelihood Approach to Deep Neural Network Based Nonlinear Spectral Mapping for Single-Channel Speech Separation》入选 Interspeech 2017。

下图为历年Interspeech论文收录情况,过去三年收录文章的数量分别为614、746、779。

(数据来源:Interspeech 2016大会主办方欢迎报告)

王博士的论文主要内容是研究在单通道语音分离中应用的深度神经网路的训练优化,该技术旨在从混合的多个说话人的语音信号中分离出目标说话人的语音,在语音识别、语音通话以及残疾人助听领域等均具有重要应用。

在这篇论文中,王博士的研究着重于改进单通道语音分离汇总基于深度神经网络的频谱映射方法中常用的最小均方误差准则(MMSE, minimum mean squared error)。在基于深度神经网络的单通道语音分离中,通过多类回归方法从混合语音频谱中恢复目标说话人的语音,主要是基于MMSE准则最小化网络输出的语音频谱和目标频谱的差异。对此,王博士等人通过对深度神经网络的输出的预测错误进行统计分析,发现输出的对数功率谱每一维分量都服从一个单峰分布,如下图所示:

由此引入零均值的高斯分布函数来描述神经网络的预测错误矢量,引入对其进行概率分布的学习,从而使用最大似然估计方法训练深度神经网络的参数,如下图所示。

通过实验对比发现,基于该最大似然方法训练的神经网络分离的语音在不同的客观指标上均超过了使用传统的最小均方误差准则训练的神经网络。

另外,通过在验证集上的reconstruction loss的变化情况对比,王博士等人发现该模型有更强的泛化能力,而在收敛速度上,该方法也具有明显的优势,对比情况如下图所示。

关于王燕南博士

王燕南,毕业于中国科学技术大学语音信号与信息处理国家工程实验室,研究领域包括语音增强和分离、语种识别、手写识别等,在Interspeech等著名语音国际会议以及IEEE Transaction on Audio,Speech and Language Processing期刊发表多篇文章,在无监督语音分离方法上做出了重要贡献。王博士于2017年加入腾讯音视频实验室,专注于语音增强以及分离等前端信号处理领域研究。

关于腾讯音视频实验室

腾讯音视频实验室, 组建于2016年11月,专注于音视频通信技术的前瞻性研究,包括全球实时音视频网络优化,音视频编解码前沿算法研究、计算机视觉图像处理、基于AI 的音频语音增强、声音美化及音视频质量评测等。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-08-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

麦肯锡报告:关于深度学习有120个商业机会

有理由相信,深度学习将彻底改变以下提及的这12个领域。 这些行业的大多数领导者都在关注机器学习,不过他们却认为深度学习带来的改变在遥远的未来才会发生。他们错了。...

682
来自专栏AI科技大本营的专栏

Tomaso Poggio:深度学习需要从炼金术走向化学

记者 | 周翔 AI科技大本营1月28日消息,《麻省理工科技评论》新兴科技峰会EmTech China在北京召开,营长也受邀参加,会上有多位人工智能领域的重磅大...

3717
来自专栏AI科技评论

登顶世界第一! 相比其他AI,AlphaGo究竟有何不同?

世界职业围棋排名网站GoRatings最新排名显示,连续24个月排名世界第一的中国棋手柯洁被谷歌人工智能机器人AlphaGo反超。截止目前,AlphaGo以36...

2716
来自专栏机器之心

专栏 | 腾讯音视频实验室Interspeech 2017论文:单通道语音分离中应用深度神经网络的训练优化

机器之心专栏 腾讯音频实验室 2017 年 8 月 20 日,语音通信领域的国际顶级学术会议 Interspeech 2017 在瑞典斯德哥尔摩召开,腾讯音视...

2833
来自专栏腾讯高校合作

犀牛鸟基金获奖者中科院自动化所刘康博士获COLING2014最佳论文奖

<图为在中国计算机大会上吕建院士、王巨宏女士为刘康博士(中)颁奖> 在刚刚结束的第25届计算语言学国际会议COLING2014颁奖仪式上,CCF-腾讯犀牛鸟基...

2897
来自专栏新智元

【深度解密】量子机器学习的研究进展

作者是来自英国布里斯托大学的量子工程中心研究员,布里斯托大学在量子力学和量子计算方面有很强的建树,诺贝尔物理学奖获得者、量子力学的奠基者之一保罗·狄拉克,中国科...

50810
来自专栏量子位

源码分享:用《侠盗猎车》训练无人驾驶,这里有个Keras实现

这个Keras实现,基于此前NVIDIA发布的《自动驾驶汽车的端到端学习》论文。论文地址:http://t.cn/RxAabUj 。 在这片论文的摘要中,NVI...

1808
来自专栏企鹅号快讯

Pieter Abbeel NIPS 2017大会报告《Deep Learning for Robots》

AI 科技评论按:美国时间12月4日,第31届神经信息处理系统大会(Neural Information Processing Systems,NIPS)在美国...

2139
来自专栏AI科技评论

动态 | 阿里巴巴 iDST 再度刷新世界纪录,这次是行人检测与识别

AI 科技评论消息,1 月 8 日,全球权威机器视觉算法排行榜 KITTI,阿里巴巴 iDST夺得行人检测单项冠军。与此同时,在知名的行人再识别数据集 Mark...

34616
来自专栏大数据文摘

什么,这些人你还不认识?!一文带你有姿势地侃深度学习大佬

1182

扫码关注云+社区