专栏首页arxiv.org翻译专栏利用自我注意卷积神经网络实现音乐中的语音和伴奏分离(CS SD)
原创

利用自我注意卷积神经网络实现音乐中的语音和伴奏分离(CS SD)

几十年来,音乐声源分离一直是信号处理领域的一个热门课题,不仅因为其技术难度大,而且由于其在许多商业应用中的重要性,如自动伴音和重混音等。本文提出了一种新颖的自注意网络,将音乐中的声乐与伴奏分离开来。首先,构建一个具有紧密连接的CNN块的卷积神经网络(convolutional neural network, CNN)作为我们的基网络。然后,我们在基础CNN的不同层次插入自我注意子网,以利用音乐的长期内依赖,即重复性。在自我注意子网络中,同样的音乐模式的重复可以重建其他的重复,以获得更好的音源分离性能。结果表明,该方法使声分离的SDR相对提高了19.5%。我们也将我们的方法与先进的MMDenseNet和MMDenseLSTM系统进行了比较。

原文题目:Voice and accompaniment separation in music using self-attention convolutional neural network

原文:Music source separation has been a popular topic in signal processing for decades, not only because of its technical difficulty, but also due to its importance to many commercial applications, such as automatic karoake and remixing. In this work, we propose a novel self-attention network to separate voice and accompaniment in music. First, a convolutional neural network (CNN) with densely-connected CNN blocks is built as our base network. We then insert self-attention subnets at different levels of the base CNN to make use of the long-term intra-dependency of music, i.e., repetition. Within self-attention subnets, repetitions of the same musical patterns inform reconstruction of other repetitions, for better source separation performance. Results show the proposed method leads to 19.5% relative improvement in vocals separation in terms of SDR. We compare our methods with state-of-the-art systems i.e. MMDenseNet and MMDenseLSTM.

原文作者:Yuzhou Liu (1), Balaji Thoshkahna (2), Ali Milani (3), Trausti Kristjansson (3) ((1) Ohio State University (2) Amazon Music, Bangalore (3) Amazon Lab126, CA)

原文地址:https://arxiv.org/abs/2003.08954

原创声明,本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

登录 后参与评论
0 条评论

相关文章

  • CatNet:具有混合音频增强功能的音乐源分离系统

    Xuchen Song, Qiuqiang Kong, Xingjian Du, Yuxuan Wang

    木樾233
  • 金融/语音/音频处理学术速递[8.30]

    【1】 European option pricing under generalized fractional Brownian motion 标题:广义分数...

    公众号-arXiv每日学术速递
  • 使用KNN-Net进行歌手识别的深度音色特征学习(cs sd)

    Xulong Zhang, Jiale Qian, Yi Yu, Yifu Sun, Wei Li

    木樾233
  • 金融/语音/音频处理学术速递[7.22]

    【1】 Default Distances Based on the KMV-CEV Model 标题:基于KMV-CEV模型的默认距离

    公众号-arXiv每日学术速递
  • 只需1分钟,这个网站用AI分离歌曲的人声、伴奏和乐器声

    疫情期间,在家待着闲来无事,一些技术人员就喜欢以技术的方式找点乐子,顺带赚钱最好了。

    AI科技大本营
  • 腾讯 AI Lab 副主任俞栋:过去两年基于深度学习的声学模型进展

    本文摘取该论文主干部分进行编译介绍,希望为读者提供相关进展的概括性了解。

    腾讯AI实验室
  • 金融/语音/音频处理学术速递[12.20]

    【1】 Path Integral Method for Step Option Pricing 标题:阶梯期权定价的路径积分法 链接:https://arxi...

    公众号-arXiv每日学术速递
  • 金融/语音/音频处理学术速递[7.15]

    【1】 Correlation scenarios and correlation stress testing 标题:关联场景和关联压力测试

    公众号-arXiv每日学术速递
  • 如何用卷积神经网络从歌曲中提取纯人声?这里有教程+代码

    安妮 编译整理自 Madebyollin博客 量子位 报道 | 公众号 QbitAI 你应该对阿卡贝拉(Acapella)不陌生吧。这种无伴奏合唱的纯音乐起源于...

    量子位
  • 2018全球人工智能突破性技术TOP10

    人工智能是个高科技、宽领域、多维度、跨学科的集大成者,从立足大数据、围绕互联网的纯计算机应用,逐步衍生到人们日常生产生活的方方面面,在细微之处改善和改变着我们。...

    钱塘数据
  • 金融/语音/音频处理学术速递[9.3]

    【1】 Detection of Structural Regimes and Analyzing the Impact of Crude Oil Marke...

    公众号-arXiv每日学术速递
  • 金融/语音/音频处理学术速递[7.12]

    【1】 Endogenous viral mutations, evolutionary selection, and containment policy ...

    公众号-arXiv每日学术速递
  • 金融/语音/音频处理学术速递[12.21]

    【1】 Rainbow Options under Bayesian MS-VAR Process 标题:贝叶斯MS-VAR过程下的彩虹期权 链接:https:...

    公众号-arXiv每日学术速递
  • 使用语音增强和注意力模型的说话人识别系统(CS SD)

    提出了一种基于级联语音增强和语音处理的语音识别体系结构。其目的是提高语音信号被噪声干扰时的语音识别性能。与单独处理语音增强和说话人识别不同,这两个模块通过使用深...

    用户6853689
  • 金融/语音/音频处理学术速递[7.29]

    【1】 MobilityCoins -- A new currency for the multimodal urban transportation sys...

    公众号-arXiv每日学术速递
  • 金融/语音/音频处理学术速递[12.15]

    【1】 The Oracle estimator is suboptimal for global minimum variance portfolio op...

    公众号-arXiv每日学术速递
  • 谷歌又出新招数,利用深度学习的视听模型进行语音分离

    AiTechYun 编辑:chux ? 即使在嘈杂的环境下,人们也能够将注意力放在特定的人身上,选择性忽略其他人的声音和环境音。这被称作鸡尾酒会效应,对人类来说...

    AiTechYun
  • 金融/语音/音频处理学术速递[9.1]

    【1】 Is happiness u-shaped in age everywhere? A methodological reconsideration f...

    公众号-arXiv每日学术速递

扫码关注腾讯云开发者

领取腾讯云代金券