专栏首页arxiv.org翻译专栏语音表征的视觉引导自监督学习(Multimedia)
原创

语音表征的视觉引导自监督学习(Multimedia)

自监督表示学习是近年来音频和视频模态的研究热点。然而,大多数研究工作通常只关注一种特定的模态或特征,而研究学习自我监督表征的两种模态之间的相互作用的工作非常有限。我们提出了一个框架,学习音频表征的指导下,视觉模态的背景下的视听语言。我们提出了一种生成式的音频-视频训练方案,在此方案中,我们对给定音频剪辑对应的静态图像进行动画处理,并对生成的视频进行优化,使其尽可能接近语音段的真实视频。通过这个过程,音频编码器网络学习有用的语音表示,我们评估情感识别和语音识别。在语音识别方面,我们取得了最先进的情感识别结果和最具竞争力的语音识别结果。这证明了视觉监督作为一种全新的自我监督学习方式的潜力,这在过去并没有被探索过。提出的无监督音频功能可以利用几乎无限数量的训练数据的未标记的视听语言,并有大量潜在的应用前景。

原文题目:VISUALLY GUIDED SELF SUPERVISED LEARNING OF SPEECH REPRESENTATIONS

原文:Self supervised representation learning has recently attracted a lot of research interest for both the audio and visual modalities. However, most works typically focus on a particular modality or feature alone and there has been very limited work that studies the interaction between the two modalities for learning self supervised representations. We propose a framework for learning audio representations guided by the visual modality in the context of audiovisual speech. We em- ploy a generative audio-to-video training scheme in which we animate a still image corresponding to a given audio clip and optimize the generated video to be as close as possible to the real video of the speech segment. Through this process, the audio encoder network learns useful speech representations that we evaluate on emotion recognition and speech recognition. We achieve state of the art results for emotion recognition and competitive results for speech recognition. This demonstrates the potential of visual supervision for learning audio representations as a novel way for self-supervised learning which has not been explored in the past. The proposed unsupervised audio features can leverage a virtually unlimited amount of training data of unlabelled audiovisual speech and have a large number of potentially promising applications.

原文作者:Abhinav Shukla, Konstantinos Vougioukas, Pingchuan Ma, Stavros Petridis, Maja Pantic

原文链接:https://arxiv.org/abs/2001.04316

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 在签名网络中组建兼容的团队(Social and Information Networks)

    在社交网络中,团队形成的问题需要一组人,他们不仅具备完成任务所需的技能,而且还能有效地相互沟通。现有的工作假定社会网络中的所有联系都是正的,即它们表示个体之间的...

    用户6869393
  • 与异构服务器在线联合布置和分配虚拟网络功能(Networking and Internet Architecture)

    网络功能虚拟化(NFV)是一种新兴的虚拟化技术,具有显著降低成本和提高服务敏捷性的潜力。网络功能虚拟化使因特网服务提供商(isp)能够在不安装新设备的情况下使用...

    用户6869393
  • 低度节点的探索加速了网络探索(cs.SI)

    我们研究了网络上的信息扩散以及随机游动如何对其进行模拟。这一领域的一个比较深入的问题是,部分覆盖时间,即,计算一个随机漫步者访问网络中给定部分节点所需的期望步数...

    用户6869393
  • 语音表征的视觉引导自监督学习(Multimedia)

    自监督表示学习近年来引起了视、听两方面的广泛研究兴趣。然而,大多数研究工作通常只关注一种特定的模态或特征,而研究学习自我监督表征的两种模态之间的相互作用的工作非...

    李欣颖6837176
  • 可压缩的Euler和Navier-Stokes方程的全离散显式局部熵稳定格式(CS NA)

    近年来,为了保证常微分方程解的一个全局泛函的保存,人们发展了各种逐次近似法。我们推广了这种方法来保证有限多凸函数(熵)的局部熵不等式,并将其应用于可压缩Eule...

    非过度曝光
  • POJ 2370 Democracy in danger(简单贪心)

    Democracy in danger Time Limit: 1000MS Memory Limit: 65536K Total Submis...

    Angel_Kitty
  • 3D Models and Matching

    Many different representations have been used to model 3D objects.

    点云PCL博主
  • 使用maxima解决初等数论中的问题

    You might remember that for any integer n greater than 1,  n is a prime number ...

    Enjoy233
  • 调查计算语言文档双语方法中的语言影响(Computation and Language)

    对于濒危语言而言,数据收集活动必须能够应对很多数据源自口传而且生产副本费用高昂的挑战。因此,为了确保录音的可解释性,至少要将这些录音转译成使用广泛的语言版本。本...

    用户6868260
  • 法兰克福拉丁语词典:从形态扩展和单词嵌入到符号图(CS CL)

    在这篇文章中,我们介绍了法兰克福拉丁语词典 (FLL),这是一个中世纪拉丁语的词典资源,既用于拉丁语文本的词法化,也用于词法化后的编辑。我们描述了最近在词典编纂...

    刘持诚

扫码关注云+社区

领取腾讯云代金券