专栏 | 腾讯音视频实验室Interspeech 2017论文:单通道语音分离中应用深度神经网络的训练优化

机器之心专栏

腾讯音频实验室

2017 年 8 月 20 日,语音通信领域的国际顶级学术会议 Interspeech 2017 在瑞典斯德哥尔摩召开,腾讯音视频实验室王燕南博士的一篇论文入选,并获邀在大会作了 oral 报告,本文对此论文进行了介绍。读者可点击阅读原文查看该论文。

Interspeech 是由国际语音通信协会 ISCA(International Speech Communication Association)组织的语音研究领域的顶级会议之一,是全球最大的综合性语音信号处理领域的科技盛会,该会议每年举办一次,每次都会吸引全球语音信号领域以及人工智能领域知名学者、企业以及研发人员参加。

腾讯音视频实验室王燕南博士的论文《A Maximum Likelihood Approach to Deep Neural Network Based Nonlinear Spectral Mapping for Single-Channel Speech Separation》入选 Interspeech 2017,并受邀在会场进行了 oral 报告。

王燕南博士的论文主要内容是研究在单通道语音分离中应用的深度神经网络的训练优化,该技术旨在从混合的多个说话人的语音信号中分离出目标说话人的语音,在语音识别、语音通话以及残疾人助听领域等均具有重要应用。

瑞典当地时间 8 月 22 日下午两点半,在 Interspeech 2017 会场,王博士做 oral 报告。

在这篇论文中,王博士的研究着重于改进单通道语音分离汇总基于深度神经网络的频谱映射方法中常用的最小均方误差准则(MMSE, minimum mean squared error)。在基于深度神经网络的单通道语音分离中,通过多类回归方法从混合语音频谱中恢复目标说话人的语音,主要是基于 MMSE 准则最小化网络输出的语音频谱和目标频谱的差异。对此,王博士等人通过对深度神经网络的输出的预测错误进行统计分析,发现输出的对数功率谱每一维分量都服从一个单峰分布,如下图所示:

由此引入零均值的高斯分布函数来描述神经网络的预测错误矢量,引入对其进行概率分布的学习,从而使用最大似然估计方法训练深度神经网络的参数,如下图所示。

通过实验对比发现,基于该最大似然方法训练的神经网络分离的语音在不同的客观指标上均超过了使用传统的最小均方误差准则训练的神经网络。

另外,通过在验证集上的 reconstruction loss 的变化情况对比,王博士等人发现该模型有更强的泛化能力,而在收敛速度上,该方法也具有明显的优势,对比情况如下图所示。

作者简介 王燕南,毕业于中国科学技术大学语音信号与信息处理国家工程实验室,研究领域包括语音增强和分离、语种识别、手写识别等,在 Interspeech 等著名语音国际会议以及 IEEE Transaction on Audio,Speech and Language Processing 期刊发表多篇文章,在无监督语音分离方法上做出了重要贡献。王博士于 2017 年加入腾讯音视频实验室,专注于语音增强以及分离等前端信号处理领域研究。 关于腾讯音视频实验室 腾讯音视频实验室,组建于 2016 年 11 月,专注于音视频通信技术的前瞻性研究,包括全球实时音视频网络优化,音视频编解码前沿算法研究、计算机视觉图像处理、基于 AI 的音频语音增强、声音美化及音视频质量评测等。 在服务于腾讯社交体系下的海量用户同时,在实时音视频通信、图像处理和音视频处理等技术领域积累了十几年的研究经验,拥有行业领先的技术水平。目前已为行业数百个产品提供了音视频技术支持与服务,如 QQ 电话、腾讯云、企业微信、QQ 空间、全民 K 歌、快手、斗鱼、虎牙、蘑菇街等。

本文为机器之心专栏,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-08-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

结构化数据上的机器学习大杀器XGBoost

XGBoost是一个机器学习算法工具,它的原理本身就并不难理解,而且你并不需要彻底搞懂背后的原理就能把它用得呼呼生风。 它的威力有多强? 自从2014年9月份在...

3209
来自专栏量子位

AI计算力6年增长30万倍,远超摩尔定律 | OpenAI分析报告

为了感受这个速度,OpenAI发布了一份分析报告,说的是2012年开始,AI训练所用的计算量呈现指数增长,平均每3.43个月便会翻倍。

873
来自专栏新智元

【麦肯锡】分析时代:数据驱动世界中的竞争力之深度学习篇

【新智元导读】 麦肯锡近日发布了一份长达136页的报告——《分析时代:数据驱动世界中的竞争力》。报告正文分为5个部分:1. 数据和分析的革命的动力;2.仍然还...

3718
来自专栏算法channel

如何抉择是否要做机器学习?如何入门机器学习?

今天又有公众号读者问我一些关于职业选择、入门AI的问题,想想它们同样曾经困扰着我,相信现在也还困扰着一些人,未来可能还会有人面临这样的问题。我深知你们心里很焦急...

922
来自专栏AI科技评论

干货 | 从菜鸟到老司机 数据科学的 17 个必用数据集推荐

编者按:数据集可谓是数据科学的练兵场,不管是对菜鸟入门还是老司机上路,能找到一个好用的数据集无异于如虎添翼。以下是雷锋网整理编译的 17 个常用数据集,并列举了...

3974
来自专栏AI科技评论

ICPR 2018 上,阿里巴巴举办首届深度学习文本分析与识别研讨会

AI 科技评论按:日前,第 24 届国际模式识别大会 ICPR 2018 在北京国家会议中心召开,这也是其创办以来第一次在中国内地召开。讲者包括南京大学周志华教...

1142
来自专栏大数据文摘

干货 | 从菜鸟到老司机,数据科学的 17 个必用数据集推荐

1593
来自专栏人工智能头条

资讯 | 讯飞百度阿里360深度学习大神论道DL与HPC

1343
来自专栏人工智能快报

专家展望未来5年深度学习技术的发展

2015年12月29日,美国科技资讯网Re-work发文,总结了多位深度学习专家对未来5年深度学习技术的发展预测。 (1)人工智能研究机构OpenAI的研究主任...

3356
来自专栏新智元

成为未来几年最炙手可热的机器学习人才,基本功、秘密武器和弹药补给

【新智元导读】工业界未来几年需要什么样的机器学习人才?哪些热点值得追?作者认为,巩固基础、寻找自己擅长的领域和机器学习交叉点可以帮助你在未来的就业市场变得炙手可...

3164

扫码关注云+社区

领取腾讯云代金券