学界 | 无需进行滤波后处理,利用循环推断算法实现歌唱语音分离

选自arXiv

机器之心编译

参与:路雪、李泽南

近日,来自 Fraunhofer IDMT、Tampere University of Technology 与蒙特利尔大学的 Yoshua Bengio 等人在 arXiv 上提交了一篇论文,提出跳过使用泛化维纳滤波器进行后处理的步骤,转而使用循环推断算法和稀疏变换步骤进行歌唱语音分离,效果优于之前基于深度学习的方法。这篇论文已经提交至 ICASSP 2018。

论文:Monaural Singing Voice Separation with Skip-Filtering Connections and Recurrent Inference of Time-Frequency Mask

  • 论文链接:https://arxiv.org/abs/1711.01437v1
  • on-line demo 地址:https://js-mim.github.io/mss_pytorch/
  • GitHub 地址:https://github.com/Js-Mim/mss_pytorch

摘要:基于深度学习的歌唱语音分离依赖于时频掩码(time-frequency masking)。在很多情况中,掩码过程(masking process)不是一个可学习的函数,也无法封装进深度学习优化中。这造成的结果就是,大部分现有方法依赖于使用泛化维纳滤波器(generalized Wiener filtering)进行后处理。我们的研究提出一种方法,在训练过程中学习和优化源依赖掩码(source-dependent mask),无需上述后处理步骤。我们引入了一种循环推断算法、一种稀疏变换步骤用于改善掩码生成流程,以及一个学得的去噪滤波器。实验结果证明,与之前单声道歌唱语音分离的顶尖方法相比,该方法使信号失真比(signal to distortion ratio)提高了 0.49 dB,信号干扰比(signal interference ratio)提高了 0.30 dB。

undefined

图 1:方法图示。

表 1:几种方法的中值信号失真比(SDR)和信号干扰比(SIR)(单位为 dB)。下划线为我们提出的方法。值越高效果越好。

结论

本论文中,Bengio 等人展示了一种用于歌唱语音分离的方法,无需使用泛化维纳滤波器进行后处理。研究人员向跳过滤波的连接 [12] 引入了稀疏变换,效果优于使用泛化维纳滤波器的方法。此外,实验证明引入的循环推断算法(recurrent inference algorithm)在单声道语音分离中取得了顶尖的结果。实验结果证明这些扩展优于之前用于歌唱语音分离的深度学习方法。

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-11-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏自然语言处理

基于KNN分类算法模型为案例进行机器学习研究

k-近邻(kNN,k-NearestNeighbor)算法是一种基本分类与回归方法,我们这里只讨论分类问题中的 k-近邻算法。k-近邻算法的输入为实例的...

2272
来自专栏机器学习原理

我的机器学习概率论篇排列 组合古典概率联合概率条件概率全概率公式贝叶斯公式独立事件随机变量离散型随机变量连续型随机变量期望和方差三个基本定理参数估计

前言: 概率论的理解有些抽象,掌握概率论的方法,用实际样本去无限接近真实,熟练掌握并且使用一些最基本的概念是前提,比如,均值,方差 排列 组合 计算各种...

4866
来自专栏机器学习算法工程师

深入浅出——基于密度的聚类方法

作者 祝烨 编辑 (没脸) “The observation of and the search forsimilarities an...

3458
来自专栏PPV课数据科学社区

进阶篇:从 0 到 1 掌握 Python 机器学习(附资源)

进阶篇 ? 机器学习算法 本篇是使用 Python 掌握机器学习的 7 个步骤系列文章的下篇,如果你已经学习了该系列的上篇基础篇:从 0 到 1 掌握 Pyth...

3957
来自专栏一心无二用,本人只专注于基础图像算法的实现与优化。

水下图像增强相关算法的一个简单小结。

最近一直没有找到感兴趣的研究课题,下了几个最新的去雾的论文,随便看了下,觉得都是为了写论文而做的论文,没有什么创新性,也就没有想法去实现他们。偶尔看到了一些关...

5247
来自专栏量子位

为什么我的CNN石乐志?我只是平移了一下图像而已

一般来说,图像经过小小的平移和变形之后,人类还是信任CNN能够把它们泛化,识别出里面的物体。

1472
来自专栏机器学习和数学

[高大上的DL]经典网络模型总结之GoogLeNet篇

勘误:开始之前说一下,昨天介绍的环境搭建的那篇,里面我忘记写cudnn的安装说明了,只贴了在哪下载,我在word版里面已经更新了,欢迎需要的童鞋下载查看。还有一...

4184
来自专栏机器之心

深度 | 使用三重损失网络学习位置嵌入:让位置数据也能进行算术运算

我们 Sentiance 开发了一款能接收加速度计、陀螺仪和位置信息等智能手机传感器数据并从中提取出行为见解的平台。我们的人工智能平台能学习用户的模式,并能预测...

1211
来自专栏人工智能

词向量fasttext,CNN is All,强化学习,自回归生成模型,可视化神经网络损失函数

【导读】专知内容组整理出最近arXiv放出的五篇论文,包括《Tomas Mikolov新作词向量表示,CNN Is All You Need,强化学习库, 自回...

2685
来自专栏大数据文摘

手把手,74行代码实现手写数字识别

3104

扫码关注云+社区