专栏首页arxiv.org翻译专栏通过对抗式自动编码器创造出一种具有风格意识的符号音乐的潜在空间(CS SD)
原创

通过对抗式自动编码器创造出一种具有风格意识的符号音乐的潜在空间(CS SD)

我们解决了生成音乐建模中符号音乐数据有效潜空间的学习这一具有挑战性的开放问题。我们的重点是利用对抗性规则作为一种灵活和自然的手段,将与音乐类型和风格相关的上下文信息灌输给不同的自动编码器。通过介绍第一个音乐对抗式自动编码器(MusAE),我们展示了如何利用考虑音乐元数据信息的高斯混合作为自动编码器潜在空间的有效先验。在大型基准上的经验分析表明,我们的模型比基于标准变分自编码器的最先进模型具有更高的重建精度。它还能够在两个音乐序列之间创建真实的插值,平滑地改变不同音轨的动态。实验表明,该模型可以根据乐曲的低层次属性来组织其潜在空间,并将先验分布中注入的高层次类型信息嵌入潜在变量中,以提高整体性能。这允许我们以有原则的方式对生成的块执行更改。

原文题目:Learning a Latent Space of Style-Aware Symbolic Music Representations by Adversarial Autoencoders

原文:We address the challenging open problem of learning an effective latent space for symbolic music data in generative music modeling. We focus on leveraging adversarial regularization as a flexible and natural mean to imbue variational autoencoders with context information concerning music genre and style. Through the paper, we show how Gaussian mixtures taking into account music metadata information can be used as an effective prior for the autoencoder latent space, introducing the first Music Adversarial Autoencoder (MusAE). The empirical analysis on a large scale benchmark shows that our model has a higher reconstruction accuracy than state-of-the-art models based on standard variational autoencoders. It is also able to create realistic interpolations between two musical sequences, smoothly changing the dynamics of the different tracks. Experiments show that the model can organise its latent space accordingly to low-level properties of the musical pieces, as well as to embed into the latent variables the high-level genre information injected from the prior distribution to increase its overall performance. This allows us to perform changes to the generated pieces in a principled way.

原文作者:Andrea Valenti, Antonio Carta, Davide Bacciu

原文地址:https://arxiv.org/abs/2001.05494

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 循环热管的动态状态空间建模与基于模型的控制设计(CS SY)

    对于航空航天、汽车或服务器系统中电子元件的热控制,散热器通常远离热源。因此,热传导系统是有效冷却电子元件所必需的。循环热管(LHPs)就是这样的传热系统,它利用...

    用户6853689
  • 面子:人脸识别审计的伦理问题研究(CS CY )

    尽管披露有偏见的绩效是必要的,但出于好意的算法审计尝试可能会对这些措施旨在保护的人群造成伤害。在审核面部识别等生物识别系统时,这种担忧甚至更为突出。在这些系统中...

    用户6853689
  • 芬兰语建模与深层变压器模型(CS SD)

    在LSTM被认为是主导模型体系结构之后的很长一段时间,转换器在语言建模中占据了中心舞台。在这个课题中,我们研究了BRET转换器结构和XL转换器结构在语言建模任务...

    用户6853689
  • 网络上可靠的通讯(CS GT)

    本文研究发送者-接收者博弈,其中发送者和接收者是通信网络中两个不同的节点。因此,发送方和接收方之间的通信是间接的。本文研究的问题是何时有可能将直接传播博弈的均衡...

    用户7454091
  • 情绪可控聊天机器人的研究(CS)

    传统的seq2seq聊天机器人模型只在输入序列的条件下寻找概率最高的句子,而不考虑输出句子的情绪。本文以seq2seq模型为基础,研究了基于人物的模型、强化学习...

    N乳酸菌
  • Linux命令行基础

    AT&T公司于20世纪70年代发布了UNIX系统。经过多年的发展,Unix不再是某一个具体操作系统的名称,而是对遵循Unix规范、设计和哲学的一类操作系统的统称...

    雪飞鸿
  • logging.Formatter 日期格式

    formatter = logging.Formatter("%(asctime)s %(levelname)s %(message)s","%Y%b%d-%H...

    于小勇
  • python的正则表达式

    IT故事会
  • When did I run that command?

    I often ask “What time did I run that command?”

    仇诺伊
  • SAP CDS view自学教程之一:如何测试基于SAP CDS view自动生成的OData服务

    I am a newbie of CDS view related topic and recently I have to learn it. I will ...

    Jerry Wang

扫码关注云+社区

领取腾讯云代金券