专栏首页arxiv.org翻译专栏基于级联对手滤波网络的视觉引导声源分离(CS CP)
原创

基于级联对手滤波网络的视觉引导声源分离(CS CP)

本文的目的是利用声源的视觉线索,从混合音频中恢复原始成分信号。这种任务通常被称为视觉引导声源分离。提出的级联对手滤波器(COF)框架由多个阶段组成,基于外观和运动信息递归地细化语音分离。一个关键的因素是一个新的对手过滤模块,识别和重新定位剩余成分之间的声源。最后,我们提出一种声源位置掩蔽(SSLM)技术,它与COF一起,产生一个像素级的声源位置掩蔽。整个系统使用大量未标记的视频进行端到端的训练。我们将COF与最近的基线进行比较,并在三个具有挑战性的数据集(MUSIC、A-MUSIC和A-NATURAL)中获得最新的性能。将公开实施和预先培训的模式。

原文标题:Visually Guided Sound Source Separation using Cascaded Opponent Filter Network

原文:The objective of this paper is to recover the original component signals from a mixture audio with the aid of visual cues of the sound sources. Such task is usually referred as visually guided sound source separation. The proposed Cascaded Opponent Filter (COF) framework consists of multiple stages, which recursively refine the sound separation based on appearance and motion information. A key element is a novel opponent filter module that identifies and relocates residual components between sound sources. Finally, we propose a Sound Source Location Masking (SSLM) technique, which, together with COF, produces a pixel level mask of the source location. The entire system is trained end-to-end using a large set of unlabelled videos. We compare COF with recent baselines and obtain state-of-the-art performance in three challenging datasets (MUSIC, A-MUSIC, and A-NATURAL). The implementation and pre-trained models will be made publicly available.

原文作者:Lingyu Zhu, Esa Rahtu

原文地址:https://arxiv.org/abs/2006.03028

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 我们需要联系追踪应用程序吗?(CS CS)

    本文的目的是阐明接触追踪智能手机应用程序对遏制COVID-19大流行的有用性。我们回顾了病毒传播过程中接触者追踪的基础知识,我们将数字与COVID-19的情况相...

    蔡秋纯
  • 无约束多视点视频中动态事件的4D可视化(CS CV)

    我们提出了一种基于数据驱动的手持式多摄像机动态事件4D时空可视化方法。我们方法的关键是使用特定于场景的自监督神经网络来组成事件的静态和动态方面。虽然从离散的视角...

    蔡秋纯
  • 基于深度学习的细粒度分层学习方法在强劲恶意软件分类中的应用(CS)

    物联网(IoT)在家庭和工业应用中的广泛应用伴随着一些安全问题。一个主要的安全问题是他们可能被对手滥用,以达到恶意的目的。理解和分析物联网恶意行为至关重要,尤其...

    蔡秋纯
  • Building the Unstructured Data Warehouse: Architecture, Analysis, and Design

    Building the Unstructured Data Warehouse: Architecture, Analysis, and Design

    数据饕餮
  • 七步理解深度学习

    原文链接请点击阅读原文。 There are many deep learning resources freely available online,but...

    量化投资与机器学习微信公众号
  • 将遗留软件系统迁移到云的挑战:一项实证研究(CS SE)

    将现有遗留系统转移到云平台是一个困难和高成本的过程,可能涉及技术和非技术资源和挑战。 有证据表明,由于缺乏对云计算迁移的理解和准备,导致许多迁移失败,无法实现组...

    用户7095611
  • selenium + python自动化测试环境搭建

    -------------------------------------------------------------

    流柯
  • 无约束多视点视频中动态事件的4D可视化(CS CV)

    我们提出了一种基于数据驱动的手持式多摄像机动态事件4D时空可视化方法。我们方法的关键是使用特定于场景的自监督神经网络来组成事件的静态和动态方面。虽然从离散的视角...

    蔡秋纯
  • Python入门(一)——windows系统下python的安装

    跟着北京某理工大学的某导师学习和研究人脸识别技术已经有一段时间了,在用C++后,在考虑用另一种语言python进行人脸识别的研究。那么要做的第一件事就是在电...

    小小詹同学
  • 基因组作为功能程序(CS NE)

    我们讨论了一个具有功能架构的基因组程序模型,并将达尔文进化论的方法视为功能程序设计的学习问题。特别地,我们介绍了一个用于某些类功能程序的学习模型。这种方法与信息...

    小童

扫码关注云+社区

领取腾讯云代金券