业界 | 腾讯论文入选Interspeech 2017:在单通道语音分离中应用的深度神经网路的训练优化

AI 科技评论按:2017年8月20日,语音通信领域的国际顶级学术会议Interspeech 2017在瑞典斯德哥尔摩召开,腾讯音视频实验室王燕南博士的一篇论文入选,并获邀在大会作了oral报告。

Interspeech是由国际语音通信协会ISCA(International Speech Communication Association)组织的语音研究领域的顶级会议之一,是全球最大的综合性语音信号处理领域的科技盛会,该会议每年举办一次,每次都会吸引全球语音信号领域以及人工智能领域知名学者、企业以及研发人员参加。

今年的Interspeech,除了学术界巨擘之外,苹果、谷歌、微软、亚马逊、腾讯、阿里巴巴、百度、滴滴等在内的国内外知名公司也悉数亮相。腾讯音视频实验室王燕南博士论文《A Maximum Likelihood Approach to Deep Neural Network Based Nonlinear Spectral Mapping for Single-Channel Speech Separation》入选 Interspeech 2017。

下图为历年Interspeech论文收录情况,过去三年收录文章的数量分别为614、746、779。

(数据来源:Interspeech 2016大会主办方欢迎报告)

王博士的论文主要内容是研究在单通道语音分离中应用的深度神经网路的训练优化,该技术旨在从混合的多个说话人的语音信号中分离出目标说话人的语音,在语音识别、语音通话以及残疾人助听领域等均具有重要应用。

在这篇论文中,王博士的研究着重于改进单通道语音分离汇总基于深度神经网络的频谱映射方法中常用的最小均方误差准则(MMSE, minimum mean squared error)。在基于深度神经网络的单通道语音分离中,通过多类回归方法从混合语音频谱中恢复目标说话人的语音,主要是基于MMSE准则最小化网络输出的语音频谱和目标频谱的差异。对此,王博士等人通过对深度神经网络的输出的预测错误进行统计分析,发现输出的对数功率谱每一维分量都服从一个单峰分布,如下图所示:

由此引入零均值的高斯分布函数来描述神经网络的预测错误矢量,引入对其进行概率分布的学习,从而使用最大似然估计方法训练深度神经网络的参数,如下图所示。

通过实验对比发现,基于该最大似然方法训练的神经网络分离的语音在不同的客观指标上均超过了使用传统的最小均方误差准则训练的神经网络。

另外,通过在验证集上的reconstruction loss的变化情况对比,王博士等人发现该模型有更强的泛化能力,而在收敛速度上,该方法也具有明显的优势,对比情况如下图所示。

关于王燕南博士

王燕南,毕业于中国科学技术大学语音信号与信息处理国家工程实验室,研究领域包括语音增强和分离、语种识别、手写识别等,在Interspeech等著名语音国际会议以及IEEE Transaction on Audio,Speech and Language Processing期刊发表多篇文章,在无监督语音分离方法上做出了重要贡献。王博士于2017年加入腾讯音视频实验室,专注于语音增强以及分离等前端信号处理领域研究。

关于腾讯音视频实验室

腾讯音视频实验室, 组建于2016年11月,专注于音视频通信技术的前瞻性研究,包括全球实时音视频网络优化,音视频编解码前沿算法研究、计算机视觉图像处理、基于AI 的音频语音增强、声音美化及音视频质量评测等。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-08-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

业界 | 更善于自动抓拍「有趣」瞬间:谷歌 Clips AI 拍照新技术

尽管深度学习已经在近期取得了一些进步,但在其在自动摄影方面依旧面临着一项极具挑战的难题:相机能够自动抓拍到精彩的瞬间吗?

763
来自专栏CSDN技术头条

深度学习“盛行”,传统方法何去何从?

记者 | 何永灿 朱军博士是清华大学计算机系长聘副教授、智能技术与系统国家重点实验室副主任、卡内基梅隆大学兼职教授。2013年,入选IEEE Intellige...

21910
来自专栏企鹅号快讯

哪种芯片架构将成为人工智能时代的开路先锋

【IT168 评论】如果用刀来比喻芯片,通用处理器好比一把瑞士军刀,人工智能时代好比要拿刀来切肉,瑞士军刀可以拿来用,但它并非是为切肉设计的,所以效果并非最好。...

1876
来自专栏ATYUN订阅号

最新研究:使用AI系统预测退化性疾病患者的预后

每年数百万人会患上老年痴呆症。根据数据报导,它是美国第六大死亡原因,而且医疗和护理费用也相当昂贵。

1074
来自专栏AI科技评论

盘点丨2016十大 AI 演讲,大牛们都发表了什么真知灼见?

新年到来,也不要忘记和 AI 科技评论一起温故而知新啊。 在刚刚落下尾声的 2016 年,许许多多的人工智能大神们站在台上分享他们的所见所感,AI 科技评论整理...

3659
来自专栏养码场

19岁的谷歌战略AI first,25岁的Java工程师如何转型人工智能?

在今天的Google I/O 主题演讲上,Google CEO 桑德尔·皮蔡并没有发布什么新的产品,而是给大家带来了一家新的公司——公司的战略正在从“Mobil...

1281
来自专栏新智元

软件正在吃掉我们的世界,深度学习也正吃掉机器学习

【新智元导读】人工智能、机器学习、深度学习方面的文章铺天盖地,向人们传播人工智能是改变世界最具竞争力的技术,相关企业应该抓住机会作深入研究,但是人们对于这三个词...

3528
来自专栏量子位

未来 3~5 年内,哪个方向的机器学习人才最紧缺?

作者:阿萨姆 普华永道 | 数据科学家 量子位 已获授权编辑发布 转载请联系原作者 既然已经身在工业界,那么我就谈谈工业界未来几年需要什么样的机器学习人才。 不...

2585
来自专栏ATYUN订阅号

谷歌又出新招数,利用深度学习的视听模型进行语音分离

AiTechYun 编辑:chux ? 即使在嘈杂的环境下,人们也能够将注意力放在特定的人身上,选择性忽略其他人的声音和环境音。这被称作鸡尾酒会效应,对人类来说...

4216
来自专栏新智元

【Quora直播】LeCun:深度学习突破,对抗式网络最值得期待

【新智元导读】Facebook AI实验室负责人、深度学习三驾马车之一的Yann LeCun今天(没有错,就在几个小时之前!)在Quora上回答提问,有一万多人...

3133

扫码关注云+社区