业界 | 腾讯论文入选Interspeech 2017:在单通道语音分离中应用的深度神经网路的训练优化

AI 科技评论按:2017年8月20日,语音通信领域的国际顶级学术会议Interspeech 2017在瑞典斯德哥尔摩召开,腾讯音视频实验室王燕南博士的一篇论文入选,并获邀在大会作了oral报告。

Interspeech是由国际语音通信协会ISCA(International Speech Communication Association)组织的语音研究领域的顶级会议之一,是全球最大的综合性语音信号处理领域的科技盛会,该会议每年举办一次,每次都会吸引全球语音信号领域以及人工智能领域知名学者、企业以及研发人员参加。

今年的Interspeech,除了学术界巨擘之外,苹果、谷歌、微软、亚马逊、腾讯、阿里巴巴、百度、滴滴等在内的国内外知名公司也悉数亮相。腾讯音视频实验室王燕南博士论文《A Maximum Likelihood Approach to Deep Neural Network Based Nonlinear Spectral Mapping for Single-Channel Speech Separation》入选 Interspeech 2017。

下图为历年Interspeech论文收录情况,过去三年收录文章的数量分别为614、746、779。

(数据来源:Interspeech 2016大会主办方欢迎报告)

王博士的论文主要内容是研究在单通道语音分离中应用的深度神经网路的训练优化,该技术旨在从混合的多个说话人的语音信号中分离出目标说话人的语音,在语音识别、语音通话以及残疾人助听领域等均具有重要应用。

在这篇论文中,王博士的研究着重于改进单通道语音分离汇总基于深度神经网络的频谱映射方法中常用的最小均方误差准则(MMSE, minimum mean squared error)。在基于深度神经网络的单通道语音分离中,通过多类回归方法从混合语音频谱中恢复目标说话人的语音,主要是基于MMSE准则最小化网络输出的语音频谱和目标频谱的差异。对此,王博士等人通过对深度神经网络的输出的预测错误进行统计分析,发现输出的对数功率谱每一维分量都服从一个单峰分布,如下图所示:

由此引入零均值的高斯分布函数来描述神经网络的预测错误矢量,引入对其进行概率分布的学习,从而使用最大似然估计方法训练深度神经网络的参数,如下图所示。

通过实验对比发现,基于该最大似然方法训练的神经网络分离的语音在不同的客观指标上均超过了使用传统的最小均方误差准则训练的神经网络。

另外,通过在验证集上的reconstruction loss的变化情况对比,王博士等人发现该模型有更强的泛化能力,而在收敛速度上,该方法也具有明显的优势,对比情况如下图所示。

关于王燕南博士

王燕南,毕业于中国科学技术大学语音信号与信息处理国家工程实验室,研究领域包括语音增强和分离、语种识别、手写识别等,在Interspeech等著名语音国际会议以及IEEE Transaction on Audio,Speech and Language Processing期刊发表多篇文章,在无监督语音分离方法上做出了重要贡献。王博士于2017年加入腾讯音视频实验室,专注于语音增强以及分离等前端信号处理领域研究。

关于腾讯音视频实验室

腾讯音视频实验室, 组建于2016年11月,专注于音视频通信技术的前瞻性研究,包括全球实时音视频网络优化,音视频编解码前沿算法研究、计算机视觉图像处理、基于AI 的音频语音增强、声音美化及音视频质量评测等。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-08-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

盘点丨2016十大 AI 演讲,大牛们都发表了什么真知灼见?

新年到来,也不要忘记和 AI 科技评论一起温故而知新啊。 在刚刚落下尾声的 2016 年,许许多多的人工智能大神们站在台上分享他们的所见所感,AI 科技评论整理...

3689
来自专栏腾讯音视频实验室

Interspeech 2017:腾讯音视频实验室王燕南博士论文入选,并获邀做口头报告

2017年8月20日,语音通信领域国际顶级学术会议Interspeech 2017在瑞典斯德哥尔摩召开。 Interspeech是由国际语音通信协会ISCA(...

4666
来自专栏钱塘大数据

苹果首份人工智能报告:一篇关于机器学习的论文

在人工智能强势来袭的今天,无论是Google、Facebook亦或是一些创新企业,都离不开高频的讨论这个话题,然而作为世界科技巨头的领先者之一的苹果一直以来似乎...

42111
来自专栏华章科技

大数据深度学习下车辆厂牌型号识别

车辆身份识别系统是智能交通的重要分支,它需要人工智能、图像处理、计算机视觉、模式识别等相关技术的综合应用。目前国内的车牌识别技术已经日益成熟,随着智能交通技术应...

1282
来自专栏养码场

19岁的谷歌战略AI first,25岁的Java工程师如何转型人工智能?

在今天的Google I/O 主题演讲上,Google CEO 桑德尔·皮蔡并没有发布什么新的产品,而是给大家带来了一家新的公司——公司的战略正在从“Mobil...

1471
来自专栏企鹅号快讯

哪种芯片架构将成为人工智能时代的开路先锋

【IT168 评论】如果用刀来比喻芯片,通用处理器好比一把瑞士军刀,人工智能时代好比要拿刀来切肉,瑞士军刀可以拿来用,但它并非是为切肉设计的,所以效果并非最好。...

2016
来自专栏新智元

软件正在吃掉我们的世界,深度学习也正吃掉机器学习

【新智元导读】人工智能、机器学习、深度学习方面的文章铺天盖地,向人们传播人工智能是改变世界最具竞争力的技术,相关企业应该抓住机会作深入研究,但是人们对于这三个词...

3608
来自专栏人工智能头条

专家展望未来5年深度学习发展趋势

1884
来自专栏ATYUN订阅号

最新研究:使用AI系统预测退化性疾病患者的预后

每年数百万人会患上老年痴呆症。根据数据报导,它是美国第六大死亡原因,而且医疗和护理费用也相当昂贵。

1134
来自专栏人工智能头条

微软人工智能首席科学家邓力:深度监督学习的局限和破解思路

1343

扫码关注云+社区